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本 书 对 Linux. 内 核 安 全 子 系统 做 了 系统 而 深入 的 分 析 ， 内 容 包括 Linux 
内 核 的 自主 访问 控制 、 强 制 访问 控制 、 完 整 性 保护 、 审 计 日 志 、 密 钥 管理 与 
密 钥 使 用 等 。 

本 书 可 供 希望 深入 了 解 Linux 安全 的 读者 参考 ， 也 可 供 计算 机 安全 专 
业 的 学 生 和 计算 机 安全 领域 的 从 业 人 员 阅 读 ， 还 可 用 作 计 算 机 安全 高 级 课 
程 的 教材 。 
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在 很 多 数 人 眼中 ， 操 作 系统 内 核 是 神秘 的 ， 安 全 是 说 不 清 的 ， 内 核 安 全 则 是 子虚乌有 的 。 如 
果 说 内 核 是 一 座 险峻 的 高 山 ， 内 核 安全 则 是 隐藏 在 高 山 之 中 的 一 个 深 不 可 测 的 洞 宣 。 

即使 对 内 核 开 发 人 员 , 内 核 安 全 也 是 陌生 的 。Linux 的 创始 人 Linus Torvalds 就 曾 说 他 不 懂 安 
人 全。 内核 开 发 人 员 不 了 解 安全 的 原因 主要 有 两 个 ; 其 一 ， 内 核 安 全 涉及 领域 大 多 了 ，Linux 是 庞 
大 的 ， 很 少 有 人 能 对 所 有 领域 都 了 解 ， 其 二 ， 如 Linus Torvalds 所 说 ， 安 全 是 “ 软 ” 科 学 ， 没 有 
一 个 简单 的 量化 的 指标 去 衡量 安全 ， 开 发 人 员 自 然 是 重视 实 实在 在 的 功能 ， 而 轻视 “虚无 绎 纵 ” 
的 安全 。 

我 十 二 岁 的 儿子 看 到 我 整 日 为 内 核 安全 而 忙碌 ， 就 问 我 什么 是 内 核 ， 什 么 是 安全 。 经 过 我 的 
解释 ， 他 对 内 核 的 印象 就 是 隐藏 在 网 络 中 的 一 个 坚硬 的 “和 蛋 ”， 内 核 安 全 就 是 “和 蛋 ” 里 面 隐藏 的 
“武林 高 手 ”。 当 不 怀 好 意 的 攻击 者 攻击 系统 时 ，“ 和 蛋 ” 中 隐藏 的 “武林 高 手 ” 就 会 跳出 来 保卫 
系统 。 基 于 这 种 理解 ， 他 画 出 了 下 面 这 幅面 : 

























































































上 面 这 幅 童 真 的 绘画 表达 了 三 个 意思 。 其 一 是 网 络 ， 在 万 物 互联 的 今天 ， 安 全 越 来 越 难以 忽 
视 。 其 二 是 内 核 ， 处 于 底层 的 内 核 为 上 层 的 用 户 态 应 用 提供 支持 和 保障 ， 其 中 也 包含 安全 保障 。 
其 三 是 内 核 安全 , 今天 的 Linux 内 核 已 经 拥有 相当 多 的 安全 机 制 来 应 对 各 种 安全 威胁 。 但 是 Linux 
内 核 安全 十 分 复杂 ， 不 易 掌握 。 人 至 本 书 成 稿 时 ， 国 内 外 还 没有 一 本 系统 、 全 面 地 介绍 Linux 内 核 
安全 的 书 。 














III 











局 指 算 来 ,我 从 事 内 核 安全 相关 工作 己 是 第 八 个 年 头 。 当 年 的 一 个 面试 邀请 电话 让 我 在 一 个 
仲春 的 清晨 伴 着 蒙蒙 细 雨 步 入 了 Linux 内 核 安 全 领域 。 几 年 后 ， 就 在 我 对 内 核 安全 有 了 一 点 点 理 
解 ， 并 沾沾自喜 时 ， 我 杀 耳 聆听 了 Linux 内 核 安 全 领域 负责 人 James Morris 的 演讲 。 我 突然 发 现 
他 讲 的 大 部 分 东西 我 都 听 不 懂 。 好 吧 ， 不 懂 可 以 学 。 本 书 的 提纲 可 以 说 是 James Morris 提供 的 。 
我 将 他 演讲 中 提 到 的 内 核 安 全 相关 内 容 研 究 了 一 遍 ， 呈 现在 这 里 。 

本 书 的 内 容 有 相当 一 部 分 出 自我 对 Linux. 内 核 源 代码 代码 的 分 析 。 很 多 内 核 安全 模块 缺 
少 文档 ， 读 代码 是 了 解 它 们 最 直接 、 最 准确 的 方式 。 代 码 面前 ， 了 无 秘密 。 但 是 为 了 不 让 读 
者 因为 陷入 代码 的 细节 之 中 ， 而 失去 对 软件 框架 的 掌握 ， 本 书 尽量 避免 简单 罗列 源 代 码 ， 所 
列 代码 一 般 是 关键 代码 ， 用 省 略 号 表示 略 去 的 不 重要 的 部 分 。 本 书 也 列 出 了 一 些 用 户 态 工具 
的 用 例 ， 讲 解 用 户 态 工具 的 使 用 不 是 本 书 的 目的 ， 列 出 工具 的 用 例 是 为 了 让 读者 对 内 核 安全 
有 些 感性 认识 。 

我 很 早 就 想 写 一 本 关于 Linux 内 核 安全 的 书 , 但 真正 提 笔 却 源 于 一 时 兴起 。 兴 起 之 时 的 Linux 
内 核 版 本 是 3.14-rc4, FÆ 3.14-rc4 就 成 了 本 书 参考 的 Linux 内 核 版 本 。 读 者 可 以 浏览 
http://lxr.linux.no/linux+v3.14-rc4/ 查 阅 此 版 本 的 内 核 代码 。 

本 人 才 玻 学 浅 ， 经 验 不 足 ， 书 中 错误 在 所 难免 ， 还 望 各 位 读者 多 多 包涵 。 读 者 可 以 通过 微 博 
和 微 信 同 我 交流 ， 指 出 本 书 的 错误 与 不 足 ， 我 的 微 博 昵称 是 “xiaoxiangful12”， 微 信号 也 是 


“xiaoxiangful2”。 
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11 什么 是 安全 








安全 是 一 个 很 难说 清楚 的 概念 。 我 们 4 

















民 难 说 明白 它 到 底 是 什么 ， 它 到 底 包 含 什么。 众多 国 
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家 科研 项 目 以 安全 为 题 ， 其 背后 大 半 是 茶 些 开源 软件 ， 隐 含 的 逻辑 是 开源 等 于 自主 可 控 ， 因 为 










































































全 问题 一 定 会 被 早早 发 现 。 但 是 ， 近 一 






































主 所 以 安全 。 国 外 开源 界 有 些 人 的 观点 是 ， 因 为 是 开源 ， 代 码 暴 露 给 无 数 双眼 睛 ， 所 以 有 安 
两 年 来 ， 开 源 代码 频频 曝光 重大 漏洞 ， 追 根 溯源 ， 一 些 
问题 代码 已 经 存在 了 几 年 甚至 十 几 年 。 在 发 展 迅猛 的 计算 机 领域 ， 十 儿 年 已 可 称 作 “ 古 时 候 ” 


















































了 。 还 有 些 观点 将 安全 与 漏洞 挂 钓 ， 且 不 说 究 竞 什么 是 漏洞 ， 漏 洞 和 代码 缺陷 (bug) 的 区 别 究 





竟 是 什么 。 先 回忆 一 下 我 们 的 手机 ， 在 不 至 


心 手机 安全 。 为 什么 到 了 智能 机 时 代 ， 手 机 安全 反而 让 老百姓 耳熟能详 了 呢 ? 是 原先 的 功能 机 








漏洞 或 代码 缺陷 少 吗 ? 









































上 十 年 之 前 ， 还 是 功能 机 满天飞 的 时 代 ， 我 们 并 不 担 

















尽管 很 难说 清楚 ， 国 际 上 对 计算 机 安全 还 是 勉强 概括 了 三 个 特性 : 私密 性 (Confidentiality )、 
完整 性 (Integrity)、 可 用 性 (Availability)， 简 写 为 CIA。 私 密 性 概念 比较 直观 ， 就 是 数据 不 被 




































































未 授权 的 人 看 到 ， 你 肯定 不 希望 你 的 电话 号 码 、 银 行 账户 还 有 照片 什么 的 让 不 认识 的 人 看 到 。 











完整 性 是 指 存储 或 传输 的 信息 不 被 算 改 ， 















































你 肯定 不 希望 付款 的 时 候 输 入 100 元 ， 结 果实 际 被 划 
XE f 1000 元。 可 用 性 是 指 ,你 的 设备 在 你 需要 使 用 它 的 时 候 能 够 使 用 。 你 表 定 不 希望 你 的 家 人 

















万 分 焦急 之 中 因为 拨 不 通 你 的 电 训 
计算 机 系统 应 对 安全 挑战 的 办 
的 设计 者 在 系统 的 各 个 层级 都 发 明 






































5 而 轻信 了 骗子 的 话 ， 真 的 以 为 你 发 生 了 意外 。 
法 大 致 有 四 种 : 隔离 、 控 制 、 混 淆 、 监 视 。 计 算 机 系统 安全 
了 不 同 的 技术 来 实现 隔离 ， 隔 离 的 结果 常常 被 称 作 “ 沙 箱 ”。 





























隔离 是 对 外 的 ， 阻 断 内 部 和 外 部 的 交互 。 控 制 则 是 对 内 的 ， 在 计算 机 世界 是 通过 系统 代码 内 在 

















的 逻辑 和 安全 策略 来 维护 信息 流动 和 信 ， 

















BAE. WHS A 可 不 可 以 读 取 文 件 a， 用 户 B 能 不 能 














改变 文件 b 的 内 容 ， 等 等 。 混 淆 要 达到 的 效果 是 ， 明 明 你 可 以 接触 到 数据 却 无 法 还 原 信息 。 隐 
藏 一 片 树叶 的 最 好 地 点 是 在 一 堆 树 叶 中 。 在 计算 机 世界 中 ， 加 密 就 是 一 种 混淆 。 最 后 是 监视 ， 
监视 的 作用 是 间接 的 。 裔 布 城市 街道 各 个 角落 的 监控 摄像 头 并 不 能 阻止 违法 和 犯罪 。 它 们 不 会 
在 你 闻 红 灯 时 ， 播 放 语 音 提示 你 ; 
么 。 但 是 你 可 能 会 因为 它们 的 存在 而 接 到 交通 罚单 ， 警 察 也 会 在 破案 时 查阅 监控 录像 。 计 算 机 
系统 中 的 日 志和 审计 就 是 在 做 监视 工作 。 


12 计算 机 系统 安全 的 历史 




































































现代 意义 的 计算 机 诞生 于 第 二 次 | 























它们 也 不 会 在 歹徒 持 刀 抢 动 时 ， 发 射 激光 、 



































电流 或 者 别 的 什 























世界 大 战 。 那 时 的 计算 机 真 的 就 是 一 个 巨大 的 计算 机 器 ， 





或 者 可 以 不 太 蕉 敬 地 叫 它 “ 超 级 算盘 ”。 你 会 担心 一 个 “超级 算盘 ”的 安全 问题 吗 ? 当然 不 会 。 























怎样 保证 计算 机 中 的 信息 的 私密 











ERI SE RE 








后 来 ， 技 术 的 进步 和 普及 证 计算 机 不 仅仅 是 “计算 的 机 器 ” 而 且 是 “信息 处 理 的 机 器 ”。 那么 ， 
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EME? 走 在 信息 革命 前 面 的 美国 首先 遇 到 这 个 问题 ， 
7 








Linux 内 核 安全 模块 深入 剖析 





并 试图 解决 它 。 在 1970 $ 
美国 军 方 的 保密 原则 ， 着 力 解决 私密 性 














禁止 上 读 ， 禁 止 下 写 。 数 据 被 分 级 ， 下 级 部 门 不 








FEF 前后， 先后 








HIT? 


:， 后 者 则 着 力 解决 完整 
能 读 . 











传递 给 下 级 部 门 。 如 此 ， 某 部 门 就 具 和 








nc 


写 上 级 上 
Integrity, HXI 
honesty; trustworthiness; —. 
接近 于 汉语 的 
意思 。 怎 么 讲 呢 ? SE 


的 人 也 不 要 去 读 “1 


iur 





的 数据 ， 上 级 不 






































氏 贱 ”的 东西 ， 
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到 了 保证 。BIBA 模型 也 可 简化 为 两 句 话 : 








大 个 安全 模型 ，BLP 模型 和 BIBA 模型 。 

















mk 
am 




















下 级 的 数据 。BIBA fi ERA] 
的 英文 释义 有 两 个 ; 一、 


E. BLP 模型 可 简化 为 


前 者 参考 


"Ny RJ: 








到 本 部 门 或 级 别 低 于 本 部 门 的 数据 ， 数 据 的 私密 性 





完整 性 





上 级 部 门 的 数据 ， 上 级 部 门 也 不 能 把 数据 


pA 


得 





止 上 写 ， 禁 目下 读 。 数 据 也 是 分 级 的 。 下 级 不 能 
的 。 完 整 性 的 英文 
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AE 





strength and firmness of character or principle; 


a state of being whole and undivided; completeness. 45 
品 ”， 第 二 个 意思 是 汉语 的 “完整 性 ” BIBA 模型 反映 的 是 integrity 的 第 一 个 
上 上 写 :“ 低 贱 ” 的 人 不 能 天 污 


éé pup ok.» 
IR] Ui 








的 人 的 数据 ， 禁 4 
降低 自己 的 品味 。 这 有 点 像 印度 古老 的 种 姓 4 
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MEE. BLP 模型 


和 BIBA 模型 本 身 都 经 过 了 数学 证 明 ， 都 是 很 严谨 的 ， 可 惜 的 是 它们 的 适应 面 有 些 罕 ， 无 法 履 
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为 了 更 有 效 地 利用 计算 机 ， 计 算 机 操作 系统 步 入 分 时 多 月 
Cmainframe)， 张 三 是 个 程序 员 ， 李 四 是 个 文档 管 





色 的 访问 控制 (Role-based Acess Control, RBAC), 让 
予 访问 权限 。 当 PC 时 代 来 临 ， 计 算 机 设备 专属 于 某 个 人 ， 系 统 中 的 所 谓 
含义 。 随 便 打 开 Linux 系统 上 的 /etc/passwd XIF, AAEM 























里 员 ， 王 五 是 系统 管理 






























































PC! 








使 用 基于 角色 的 访问 控 人 





增强 〈Type Enforcement，TE)。 模 型 中 控制 的 对 象 不 再 是 人 ， 或 角色 ， 而 是 进入 
不 同类 型 有 不 同 的 访问 权限 。 
[ 湖 中 不 仅 有 少林 ， 还 有 武当 。 计 算 机 系统 安全 的 男 一 路 人 马 在 “可 
着 。 他 们 希望 计算 机 只 做 人 预先 定义 好 的 工 
门 就 认为 计算 机 是 “可 人 和信” 的 了 。 可 信 





同 的 类 型 ， 
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果 做 到 了 这 一 点 ， 他 











剖 就 有 些 力 不 从 心 了 。 接 下 来 诞生 了 另 一 个 


] 户 分 属于 不 同 的 角 
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用 户 也 
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上 户 时 代 。 许 多 人 登录 到 一 台 主机 
LA. B2 HOLT 3T fe 
色 ， 青 基于 角色 赋 
背离 了 原 有 的 
真正 的 用 户 ? 因 
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访问 控制 模型 
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进程 
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型 构建 到 计算 机 的 世界 
loader), JJ 
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; 计算 机 固件 信和 外 





E 加 载 











领域 辛勤 ] 
做 主人 不 希望 的 缮 


各 人 类 社会 的 





地 耕耘 
青 。 如 
HERR 


器 (boot 
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[ 载 器 信任 操作 系统 ， 操 作 系 统 信任 应 














H, 


于 是 应 用 是 可 信 的 。 


HER] RE SR 




















性 校 验 值 和 数字 签名 。 这 的 确 可 以 保 说 
应 用 没有 漏洞 ， 不 会 被 恶意 利用 。 


计算 机 系统 安全 的 现状 


SE 
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1.3 


计算 机 系统 安全 的 可 悲 之 处 在 于 ， 任 何 一 个 被 有 
把 安全 作为 设计 系统 的 目标 ， 包 插 UNIX。 这 一 点 可 以 从 UNIX 设计 者 之 一 Dennis Ritchie 的 论 
h 看 到 。 计 算 机 系统 安全 的 第 二 个 可 悲 之 处 是 ， 安 全 不 仅仅 是 一 个 技术 问题 ， 它 和 管理 
， 苹 果 的 iOS 并 不 比 谷歌 的 Android 安全 ， 但 是 后 者 暴露 的 
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KR. EXE 





FARIN! 








应 用 是 




















安全 问题 却 多 得 多 。 计 算 机 系统 安全 的 第 三 个 可 翡 之 处 在 于 ， 
市 场 份额 ， 而 用 户 在 免费 上 








有 哪个 厂商 会 为 了 安全 而 牺 御 














计算 机 在 过 去 的 几 十 年 里 迅猛 发 











展 ， 但 是 计算 机 安全 3 


























| 某 个 “正直 ”的 人 或 公司 用 
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女 
NERF, 
没有 





户 广泛 接受 的 操作 系统 在 设计 之 初 都 没有 
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F 发 的 ， 但 不 能 保证 


用 完整 











p 














4 


ERU HT 











民 上 时 代 的 及 


© On the Security of Unix, Dennis M. Ritchie, ftp://ftp.club-ix.farlep.net/pub/doc/security/info/unix-security.ps.gz 
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E 总 是 矛盾 的 。 没 
也 更 愿意 牺牲 自己 的 隐私 。 
步 。 四 十 多 和 


ci 





A XA 
第 1 章 F 


niil 









































的 BLP 模型 是 成 功 的 ， 它 达成 了 预定 的 目标 一 一 将 美国 军 方 的 安全 原则 移植 到 信息 处 理 系统 
中 ， 但 是 在 随后 的 日 子 里 ， 没 有 一 个 好 的 安全 模型 能 覆盖 计算 机 应 用 的 方方面面 。 这 换 来 BLP 
的 设计 者 之 一 Bell 的 一 声 叹 息 9 。 

病毒 与 反 病毒 ， 漏 洞 与 漏洞 补丁 ， 头 痛 医 头 ， 脚 痛 医 脚 ， 乐 此 不 疲 ! 


































































































14 linux 内 核 安 全 概貌 




















内 核对 于 系统 的 重要 性 是 不 言 而 喻 的 。Linux 内 核 安 全 的 开发 开始 得 还 是 比较 早 的 ， 约 始 
T 20 世纪 90 年 代 中 后 期 。 经 过 近 二 十 年 的 开发 ，Linux 内 核 中 安全 相关 的 模块 还 是 很 全 面 的 ， 
有 用 于 强制 访问 控制 的 LSM (Linux Security Module)， 有 用 于 完整 性 保护 的 IMA CIntegrity 
Measurement Architecture) 和 EVM (Extended Verification Module)， 有 用 于 加 密 的 密 钥 管理 横 
块 和 加 密 算法 库 ， 还 有 日 志和 审计 模块 ， 以 及 一 些 零碎 的 安全 增强 特性 。 

说 起 来 安全 功能 是 很 多 的 。 但 是 问题 也 有 ， 其 一 是 应 用 问题 ， 这 些 安全 功能 还 是 没有 被 ) 
泛 地 应 用 起 来 。 最 典型 的 是 Linux 内 核 中 基于 能 力 的 特权 机 制 ， 时 至 今日 ， 广 大 应 用 程序 的 
发 者 不 仅 没 用 它 ， 甚 至 根本 不 知道 它 的 存在 ! 其 二 是 整合 问题 。 攻 与 防 的 区 别 在 于 ， 攻 击 只 求 
一 点 突破 即 可 ， 防 守则 要 保证 整 条 防线 。 内 核 各 个 安全 模块 散布 于 内 核 多 个 子 系统 之 中 ， 如 何 
整合 各 个 安全 子 模块 来 整体 加 固 系统 的 安全 是 一 个 不 小 的 挑战 。 







































































































































































































































































© Looking Back at the Bell-La Padula Model, David Elliott Bell, http://www.acsac.org/2005/papers/Bell.pdf 


第 一 部 分 “自主 访问 控制 


1. 访问 
访问 是 什么 ?看 一 个 例子 , 西游 记 第 十 七 回 的 标题 是 :“ 孙 行者 大 闹 黑 风 山 ”观世音 收 伏 能 
RR”. 浓缩 一 下 就 是 ， 孙 行者 疮 黑 风 山 ， 观 世 音 收 熊 怪 。 由 此 可 见 访问 包括 三 个 要 素 ， 访 问 发 
un 孙 行 者 、 观 世 音 ， 被 访问 者 一 一 黑 风 山 、 熊 怪 。 在 计算 机 安全 
领域 ， 访 问 发 起 者 被 称 为 主体 ， 访 问 动作 就 是 具体 的 操作 ， 被 访问 者 被 称 为 客体 。 比 如 ， 进 程 
A 读 文件 a WEA EEA l 卖 是 操作 ， 文 件 a 是 客体 。 
计算 机 是 人 发 明 出 来 的 一 种 机 器 。 它 是 为 人 服务 的 。 但 是 计算 机 的 世界 里 没有 人 ， 只 有 代 
表 用 户 执行 任务 的 进程 。 程 序 是 静态 的 ， 进 程 是 动态 的 ， 进 程 是 程序 的 一 次 运行 。 用 户 甲 和 用 
户 乙 运行 同一 个 程序 能 做 的 事情 却 可 能 不 同 ， 比 如 普通 用 户 运 行 vi /etc/passwd 不 能 修改 文件 内 
容 ， 而 root 用户 运行 vi /etc/passwd 就 可 以 修改 。 这 种 区 别 就 是 访问 控制 造成 的 。 
本 书 中 提 及 的 用 户 ， 在 大 部 分 语 境 下 是 指 代表 用 户 执行 任务 的 进程 。 因 为 ， 在 计算 机 的 | 
界 里 没有 作为 实体 的 人 存在 。 
2. 访问 控制 
访问 控制 就 是 对 访问 进行 控制 。 比 如 ， 人 允许 进程 A 读 文件 a， 不 允许 进程 B 读 文件 b。 要 
实现 访问 控制 ， 需 要 两 个 东西 ， 一 个 是 标记 ， 标 记 主 体 和 客体 ， 这 样 才 有 控制 的 对 和 象 ， 男 一 个 
是 策略 ， 人 允许 某 主体 对 某 客体 做 什么 。 
3. 自主 访问 控制 
自主 访问 控制 的 自主 是 指使 用 计算 机 的 人 可 以 决定 访问 策略 ， 比 如 规定 某 文件 只 能 读 不 能 
写 ， 制 造 出 一 种 “只 读 ” 文 件 ， 防 止 文件 内 容 被 不 小 心 更 改 。 再 比如 ， 张 三 有 个 mp3 文件 ， 规 
定 李 四 可 以 读 ， 但 赵 五 不 可 以 读 。 
自主 访问 控制 的 优点 是 设计 简单 。 缺 点 是 安全 性 相对 较 差 . 用户 往 往 不 清楚 潜在 的 安全 问题 。 
在 个 人 电脑 和 个 人 移动 终端 系统 上 ， 用 户 的 含义 被 异化 ， 不 再 表示 使 用 计算 机 的 人 而 是 表示 应 用 ， 
这 个 问题 很 突出 。 允 许 应 用 读 通 信 录 ， 可 以 吗 ? 允许 应 用 通过 Internet 发 送 数 据 ， 可 以 吗 ? 如 果 既 
允许 读 通信 录 ， 又 允许 通过 Internet 发 送 数据 呢 ? 有 些 软件 显然 在 滥用 自主 访问 控制 ， 界 面 上 总 是 
弹出 菜单 ， 询 问 人 们 是 否 人 允许 这 个 ， 是 否 人 允许 那 个 ， 结 果 就 是 训练 出 不 看 内 容 快 速 点 击 确定 的 人 。 
4. UNIX 的 自主 访问 控制 
UNIX 的 自主 访问 控制 的 设计 是 简单 而 有 效 的 。 它 分 为 两 个 部 分 ， 第 一 部 分 可 以 概括 为 进程 操 
作文 件 。 操 作 分 三 种 : 读 、 写 、 执 行 。 在 进程 操作 文件 时 ， 内 核 会 检查 进程 有 没有 对 文件 的 相应 操 
作 许 可 。 第 二 部 分 可 以 概括 为 : 拥有 特权 的 进程 可 以 做 任何 事情 ， 内 核 不 限制 。 特 权 机 制 实际 上 包 
含 了 两 类 行为 ， 一 类 是 超越 第 一 部 分 的 操作 许可 控制 ， 比 如 root 用 户 可 以 读 或 写 任何 文件 。 另 一 类 
是 无 法 纳入 上 述 “ 进 程 操作 文件 ”模型 之 内 的 行为 ， 比 如 重启 动 系统 。 
5. Linux 的 自主 访问 控制 
在 自主 访问 控制 上 ，Linux 对 UNIX 的 扩展 主要 有 两 处 ， 一 是 提供 了 访问 控制 列表 CAccess 
Control List)， 使 得 能 够 规定 某 一 个 用 户 或 某 一 个 组 的 操作 许可 ; 二 是 对 特权 操作 细 化 ， 将 原 有 
属于 根 用 户 的 特权 细 化 为 互 不 相关 的 三 十 儿 个 能 力 。 有 些 遗 憾 的 是 这 两 个 扩展 的 接受 程度 不 够 
理想 ， 广 大 应 用 程序 开发 者 和 系统 维护 者 对 它们 还 不 熟悉 ， 还 没有 频繁 地 使 用 它们 。 
本 书 对 于 Linux 沿袭 UNIX 的 部 分 会 叙述 作 UNIX 如 何如 何 ， 对 于 Linux 特有 的 部 分 会 叙 
述 作 Linux 如 何如 何 。 
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das 主体 标记 与 进程 凭证 


进程 凭证 





没有 标记 就 谈 不 上 区 分 ， 没 有 区 分 就 无 从 实施 控制 。 本 章 介 绍 进程 的 标记 ， 下 一 章 介绍 文 
件 等 客体 的 标记 。 
UNIX 是 诞生 于 20 世纪 70 年 代 的 分 时 多 任务 多 用 户 操作 系统 。 当 时 的 场景 是 许多 用 户 同 






















































































到 一 台 主 机 ， 运 行 多 个 各 自 的 进程 。 因 此 ， 很 自然 的 ，UNIX 系统 中 进程 的 标记 是 基于 






































用 户 的 。 在 人 类 的 世界 中 ， 人 的 标记 是 名 字 。 相 比 字 符 串 而 言 ， 计 算 机 更 擅长 处 理 数 字 ，UNIX 
j 一 个 整数 来 标记 运行 进程 的 用 户 ， 这 个 整数 被 称 作 user id， 简 写 为 ud。 人 通常 被 分 组 ， 比 
如 这 几 个 人 做 研发 工作 ， 被 分 到 研发 组 ， 那 几 个 人 做 销售 工作 ， 被 分 到 销售 组 。UNIX 用 另 一 
个 整数 来 标记 用 户 组 ， 这 个 整数 被 称 作 group id， 人 简写 为 gid。uid 和 gid 是 包括 Linux 在 内 的 所 























有 类 UNIX 操作 系统 的 自主 访问 控制 的 基础 。 














































































































下 面 看 一 下 uid 和 gid 是 如 何 记 录 在 内 核 的 进程 控制 结构 之 中 的 : 


include/linux/sched.h 


struct task struct { 


/* objective and real subjective task credentials (COW) */ 
const struct cred “Leu *real cred; 

/* effective (overridable) subjective task credentials (COW) */ 
const struct cred — rcu *cred; 





) 
































Credential 的 中 文章 思 为 凭证 或 通行 证 , 本 书 用 凭证 这 个 词 。 进 程 的 凭证 中 存储 有 和 访问 控 


制 相 关 的 成 员 。 从 上 面 代码 可 见 ， 进 程 的 控制 结构 中 有 两 个 凭证 
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， 一 个 叫 real cred, 53 —^ ll] 








cred。 在 内 核 代 码 注释 中 将 real. cred 称 为 客体 Cobjective) 凭证 ， 将 cred 称 为 主体 Csubjective) 
形 证 。 进 程 是 主体 ， 在 某 些 场景 下 又 是 客体 。 典 型 的 场景 是 进程 间 发 信号 ， 进 程 A 向 进程 B 发 



















































































送信 号 ， 进 程 A 是 主体 ， 进程 B 就 是 客体 。 在 大 多 数 情 况 下 ， 主 体 赁 证 和 客体 凭证 的 值 是 相同 
的 ， 但 在 某 些 情况 下 内 核 代 码 会 修改 当前 进程 的 主体 赁 证， 以 获得 某 种 访问 权限 ， 竺 执行 完 任 


务 后 再 将 主体 凭证 改 回 原 值 。 

































































下 面 看 一 下 凭证 的 数据 结构 : 





include/linux/cred.h 
struct cred { 


kuid t uid;/* real UID of the task */ 
kgid t gid;/* real GID of the task */ 
kuid t suid;/* saved UID of the task */ 


Linux 内 核 安全 模块 深入 剖析 





kgid t 
kuid t 
kgid t 
kuid t 
kgid t 


sgid;/* saved GID of the 
euid;/* effective UID of 
egid;/* effective GID of 
fsuid;/* UID for VFS ops 
fsgid;/* GID for VFS ops 


task */ 

the task */ 
the task */ 
*/ 

wy 


/* SUID-less security management */ 
unsigned securebits; 




















/* caps our children can inherit */ 
kernel cap t cap inheritable; 
/* caps we're permitted */ 
kernel cap t cap permitted; 
/* caps we can actually use */ 
kernel cap t cap effective; 
/* capability bounding set */ 
kernel cap t cap bset; 
ifdef CONFIG KEYS 
/* default keyring to attach requested keys to */ 


unsigned char jit keyring; 


/* keyring inherited over fork */ 











struct key _ rcu *session keyring; 
/* keyring private to this process */ 
struct key *process keyring; 
/* keyring private to this thread */ 
struct key *thread keyring; 
/* assumed request key authority */ 
struct key *request key auth; 
fendif 
#ifdef CONFIG SECURITY 
void *security; /* subjective LSM security */ 


fendif 
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不 止 




















id 相关 的 成 员 ， 还 有 能 力 集 相 关 的 成 员 、 密 铀 有 








相关 的 成 员 和 强制 









































控制 相关 的 成 员 。 能 力 集 相 关内 容 在 第 6 章 介 绍 ， 密 钥 串 相关 内 容 在 第 16 HNE 
制 则 在 第 二 部 分 介绍 。 
2.2 详 述 


2.2.1 uid fil gid 


` 


单纯 的 user id 和 group id 都 好 
(1) uid 


N 
































里 解 。 不 好 理解 的 是 进程 凭证 ! 
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ql v 


里 











, 





有 不 止 一 个 uid 和 gid。 


这 是 最 早出 现 的 user id。 有 时 也 被 称 为 real uid， 实 际 的 uid， 简 写 为 (uid。 这 个 uid EX 


访问 
问 控 


AR 





pi 
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源 统计 和 资源 分 配 中 使 用 ， 比 如 限制 某 用 户 拥有 的 进程 数量 。 
(2) euid 
euid (effective uid). 即 有 效 uid。 在 内 核 做 特权 判断 时 使 用 它 。 它 的 引入 和 提升 权限 有 关 。 

此 外 ， 内 核 在 做 ipc《〈 进 程 间 通信 ) 和 key( 密 钥 ) 的 访问 控制 时 也 使 用 euid。 

(3) suid 
suid 是 “saved set user id". euid 和 特权 有 关 ， 当 euid 为 0 时， 进程 就 具有 了 超级 用 户 的 权 

限 ?， 拥 有 了 全 部 特权 ， 在 系统 中 没有 做 不 了 的 事情 。 这 有 些 危险 。 我 们 需要 锋利 的 刀 ， 但 不 

用 的 时 候 希 望 把 刀 放 入 刀 匡 。 为 了 让 进程 不 要 总 是 具有 全 部 特权 ， 总 能 为 所 欲 为 ， 系 统 的 设计 

者 引入 了 suid, HFE euid 的 值 。euid 为 0 时 做 需要 特权 的 操作 ， 执 行 完 操作 ， 将 0 赋予 

suid, euid 恢复 为 非 0 值 ， 做 普通 的 不 需要 特权 的 操作 ， 需 要 特权 时 再 将 suid 的 值 传 给 euid。 
(4) fsuid 
fsuid 是 “file system user id". iX uid 是 Linux 系统 独 有 的 。 它 用 于 在 文件 系统 相关 的 访 

问 控制 中 判断 操作 许可 。 
gid FI uid 类 似 ， 也 有 (Dgid、egid、sgid、fSgid。 此 外 ， 多 出 了 一 个 补充 组 id, Supplementary 

Group IDs。 补 充 组 id 是 一 个 数组 ， 存 有 一 组 group id， 因 为 一 个 用 户 可 以 属于 多 个 组 。 补 充 组 

id 也 用 于 访问 控制 权限 检查 。 这 点 与 egid 相同 。 可 以 这 样 理解 : 在 涉及 权限 的 检查 中 ， 要 判断 

egid 和 补充 组 id 中 的 每 一 个 gid， 涉 及 文件 系统 的 操作 还 要 加 上 fsgid， 只 要 有 一 个 判断 的 结果 

是 允许 访问 就 允许 访问 。 
gid 和 uid 的 另 一 个 区 别 是 group id 与 特权 无 关 。euid 为 0 的 进程 具备 全 部 特权 弓 。egid 或 

别 的 gid 为 0， 进程 不 会 因此 而 具备 特权 。 


2.2.2 ”系统 调用 


进程 的 控制 结构 和 进程 凭证 都 是 内 核 中 的 数据 结构 ， 相 应 的 数据 对 象 都 是 被 内 核 掌 探 的 。 
用 户 态 进程 只 能 通过 内 核 提供 的 接口 来 查看 和 修改 进程 凭证 。Linux 内 核 提 供 了 数 个 系统 调用 
来 查看 和 修改 进程 的 凭证 中 的 wid 和 gid。 这 部 分 系统 调用 都 要 求 进程 只 能 修改 自己 的 wid 和 gid,， 
不 可 以 修改 别 的 进程 的 。 

先 说 和 设置 user id 相关 的 系统 调用 : 
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int setuid(uid t uid) 






































与 字面 意思 相左 ，setuid 是 用 来 设置 euid 的 。 如 果 调 用 进程 具有 setuid 能 力 〈 一 个 特权 )， 
此 调用 会 将 (Juid 和 suid 也 一 起 设置 ， 即 (Duid、euid、suid 的 值 将 在 系统 调用 后 相同 。 



































int seteuid(uid t euid) 





























seteuid 也 是 用 来 设置 euid 的 。seteuid 与 setuid 的 区 别 在 于 seteuid 不 会 设置 DJuid 和 suide 























int setreuid(uid t ruid, uid t euid) 





O $4556. 
O 这 只 是 一 般 情 况 ， 请 参考 第 6 章 。 
© 内 核实 际 上 判断 的 是 capabilities， 不 是 uid， 请 参考 第 6 章 。 
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Vr 





setreuid 可 以 同时 





e 修改 了 (Duid。 



































医改 (rj)uid 和 euid。 提 供 
个 条 件 之 一 成 立时 ， 此 系统 调 















































e 修改 了 euid， 并 且 euid 的 新 值 不 等 于 系统 调用 前 的 (r)uid。 


int 


setresuid 同时 修改 (ruid、euid、suid。 


int setfsui 


setfsuid 修改 进程 的 fuid。 在 设置 


也 设置 fsuid， 让 fsuid 





在 设置 user id 的 系统 调 月 





d(uid t fsuid) 




















和 euid 的 值 相 











setresuid(uid t ruid, uid t euid, uid t suid) 
























































© 具备 setuid 特权 的 进程 可 以 把 (Duid、euid、suid、fsuid 设置 为 任意 值 。 











e ^ 
的 
的 值 。 






































@ 不 具备 setuid 特权 的 进程 只 能 将 fsuid 的 值 置 为 现 有 的 ()uid、euid、suid、fsuid 的 值 


FE 


组 的 set 类 系统 调 月 








中 ， 如 果 进 程 
起 改变 。 
组 set 类 系统 调用 

































































l4 setuid 特权 的 进程 只 









































具有 setgid 特权 ， 进 程 的 (r)gid 和 egid 也 被 设置 





还 有 一 个 : 













































































I 








， 隐 含 fsgid 也 会 随 














“-1” 作 为 参数 表示 维持 原 有 值 不 变 。 在 以 下 两 
j 也 会 修改 suid， 让 suid 的 值 和 系统 调用 后 的 euid 值 相同 : 


euid 相关 的 系统 调用 中 ， 内 核 代码 会 在 设置 euid 的 同时 
同 。 此 系统 调用 专门 设置 fsuid。 
日 中， 内核 代码 遵守 了 以 下 原则 : 


能 将 (Duid、euid、suid 的 值 设 置 为 现 有 的 (r)uid、euid、 或 suid 
让。 以 euid 为 例 , euid 的 新 值 只 能 是 现在 的 (rjuid 的 值 、 现 在 的 euid 的 值 或 现在 的 suid 

















HARI HIP (user) 类 似 , 也 有 setgid、 setegid、 setregid、 setresgid、 setfsgid. 
涉及 的 特权 是 setgid。 同 uid 类 的 调用 非常 类 似 ， 做 个 简单 殖 换 就 可 以 了 。 比 如 setgid 调用 














au 


7H egid — 















































int setgroups(size t size, const gid t *list) 
此 调用 用 于 一 次 性 赋值 进程 凭证 中 的 补充 组 id。 因 为 补充 组 id 是 一 个 数组 ， 而 且 其 中 的 值 
不 能 限定 只 出 现在 (r)gid、egid、sgid 中 ， 否 则 补充 组 id 没有 意义 。 所 以 这 个 系统 调用 需要 特权 
setgid. 
与 set 类 系统 调用 相对 的 是 get 类 系统 调用 。 











uid t getuid (void) 


总 算 和 字面 意思 相符 了 ， 此 系统 调 























uid t geteuid(void) 


取出 进程 的 euid。 











了 取出 进程 的 (Duid。 


int getresuid(uid t *ruid, uid t *euid, uid t *suid) 


取出 进程 的 (Duid、 
有 趣 的 是 与 set 作 比 较 ， 没 有 与 setreuid 和 setfsuid 相对 应 的 get 类 系统 调用 。 内 核 如 此 设 





euid, suid. 

















T 
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计 似乎 没有 什么 特殊 的 理由 。 
组 的 get 类 系统 调用 与 用 户 的 get 类 系统 调用 类 似 ， 也 有 getgid、getegid、getresgid， 不 同 
的 是 多 一 个 getgroups 用 于 取得 进程 的 补充 组 id。 
































2.3 proc 文件 接口 
































除了 系统 调用 外 ， 内 核 还 提供 了 proc 文件 proc/[pid]/status 来 反映 进程 任 证 。 下 面 看 一 个 
例子 : 








zhi@ubuntu-desktop:/work/latex$ cat /proc/self/status 
Name: cat 


State: R (running) 


Uid:1000100010001000 
Gid:1000100010001000 

FDSize: 256 

Groups: 4 20 24 29 46 105 119 122 1000 


CapInh: 0000000000000000 
CapPrm: 0000000000000000 
CapEff: 0000000000000000 
CapBnd: ffffffffffffffff 
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在 Linux shell 中 运行 “man credentials", 可 以 看 到 关于 进程 凭证 的 说 明 。 




















1. Linux 内 核 没有 提供 getfsuid， 用 户 态 进程 有 没有 方法 得 到 自己 的 fsuid? 
2. 运行 man 2 setuid， 可 以 得 到 下 面 这 段 描 述 : 






































T 














DESCRIPTION 
setuid() sets theeffectiveuserIDofthecallingprocess. Iftheeffective 








UID of the caller is root, the real UID and saved set-user-ID are also set. 





思考 一 下 ， 为 什么 内 核 这 么 设计 ? S 
3. 内 核 没 有 提供 系统 调用 getreuid 和 getfsuid， 这 种 设计 好 吗 ? 
































O 提示 : 这 和 UNIX 的 发 展 历史 以 及 后 面 第 4 章 提 到 的 设置 位 有 关 。 


B 3 di 


$1 文件 的 标记 





一 个 城市 有 多 家 图 书馆 ， 读 者 可 以 在 多 家 
本 图 书 只 会 属于 一 家 图 书馆 。 类 似 地 ，UNIX H 














T 





一 个 uid 和 一 个 gid， 分 别称 为 属 主 和 
一 个 用 户 组 。 


3.2 文件 属性 




















客体 标记 与 文件 属性 





图 书馆 办 借 书 证 ,在 多 家 图 书馆 借 书 。 但 是 一 














局 组 。 它 们 的 含义 是 标记 文件 属于 哪 一 个 用 户 ， 属 于 哪 


hb 进程 有 多 个 uid 和 多 个 gid， 但 是 文件 只 有 














] 


























在 文件 系统 中 一 个 文件 不 仅 要 包含 文件 的 内 容 〈 数 据 )， 还 要 包含 所 谓 的 元 数据 (neta data). 
元 数据 包括 文件 的 存 取 访 问 方 式 、 文 件 的 创建 日 期 、 文 件 所 在 的 设备 、 本 章 要 叙述 的 属 主 和 属 











组 以 及 第 4 章 要 叙述 的 允许 位 等 。 


























在 UNIX 中 ， 元 数据 存储 在 文件 系统 的 inode 中 。 有 些 文 件 

















系统 ， 比 如 ext4, 在 物理 存储 介质 上 存储 inode。 有 些 非 UNIX/Linux 原生 的 文件 系统 没有 inode 














概念 。Linux 内 核 会 在 内 存 : 











include/linux/fs.h 


struct inode { 


umode t i mode; 
unsigned short i opflags; 
kuid t i uid; 
kgid t i gid; 
unsigned int 





i flags; 


*ifdef CONFIG FS POSIX ACL 


struct posix acl 
struct posix acl 
#endif 


const struct inode operations 
*i sb; 


*i mapping; 


struct super block 


struct address space 


*ifdef CONFIG SECURITY 
void *i security; 

#endif 

} 
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*i acl; 


*i default acl; 




















临时 创建 inode。 对 于 那些 内 存 文件 系统 ， 比 如 tmpfs，Linux 内 核 
也 是 在 内 存 中 创建 临时 的 inode。 下 面 看 一 下 内 核 ! 











inode 的 定义 : 






































acl 相关 


*i op; 
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本 章 要 叙述 的 inode 中 的 属 主 和 属 组 ， 第 4 章 讲述 的 允许 位 ， 以 及 第 5 章 讲述 的 ACL (访问 
控制 列表 )， 都 称 为 文件 属性 ， 都 存储 在 inode 之 中 。 第 5 章 提 到 的 访问 控制 列表 、 第 6 章 提 到 的 
能 力 、 第 7 章 提 到 的 SELinux 安全 五 元 组 、 第 8 章 提 到 的 SMACK 安全 标签 以 及 第 12 章 提 到 的 
完整 性 度量 值 都 存储 在 文件 的 扩展 属性 之 中 。 文 件 的 扩展 属性 是 一 个 和 inode 相关 的 结构 。 


$3 ”系统 调用 


文件 属性 是 内 核 控制 的 数据 ， 只 能 由 内 核 来 修改 。 内 核 开 放 了 几 个 系统 调用 供用 户 态 进 程 
使 用 ， 用 户 态 进 程 可 以 请 求 内 核 修改 文件 属性 。 涉 及 属 主 和 属 组 的 系统 调用 是 : 

























































































































































































int chown(const char *path, uid t owner, gid t group); 
int fchown(int fd, uid t owner, gid t group); 


int lchown(const char *path, uid t owner, gid t group); 





int fchownat (int dirfd, const char *pathname, uid t owner, gid tgroup, int flags); 

















chown 一 族 系 统 调用 可 以 同时 修改 文件 的 属 主 和 属 组 , 参数 分 别 对 应 owner 和 groups WR 
给 出 的 参数 值 为 -1， 表 示 维 持原 有 值 不 变 。 更 换文 件 的 属 主 需要 特权 chown。 怎 么 理解 呢 ? 在 
人 类 社会 中 将 别人 的 东西 据 为 己 有 是 不 行 的 , 除非 你 有 特权 ， 比 如 法 院 可 以 判决 没收 某 人 财产 。 
但 是 ， 如 果 一 个 文件 的 属 主 和 进程 的 fsuid 相同 ， 进 程 能 不 能 将 文件 的 属 主 改 为 别 的 uid 呢 ? 这 
就 象 人 类 社会 的 赠 予 行为 , 似乎 应 是 允许 的 。 据 说 在 早期 的 BSD 系统 中 这 类 赠 予 行为 是 允许 的 。 
后 来 发 现 有 人 钻 空 子 ， 将 自己 的 文件 的 属 主 改 为 别人 ， 修 改 之 前 确保 文件 的 允许 位 《内 容 见 第 
4 章 ) 能 保证 本 人 对 文件 有 必要 的 访问 权限 ， 在 有 硬盘 配额 (quota) 控制 的 系统 中 ， 此 文件 就 
会 占用 别人 的 资源 配额 ， 而 又 不 影响 自己 使 用 。 
还 有 一 点 很 有 趣 ， 进 程 赁 证 中 有 4 个 uid， 在 进程 的 fsuid 和 文件 的 属 主 相等 的 情况 下 ， 能 
否 让 没有 chown 特权 的 进程 将 文件 的 属 组 改 为 进程 的 某 个 uid 值 呢 ? 不 行 。 这 种 设计 一 是 简单 ， 
二 是 有 这 样 一 种 考虑 ， 进 程 凭证 中 多 个 uid 机 制 的 引入 是 为 了 在 运行 时 和 暂时 授权 。 比 如 进程 的 
(r)uid 是 1000, fsuid 是 1001， 进 程 就 具备 了 1001 用 户 的 访问 文件 的 权限 ， 但 是 仅仅 是 访问 ， 
不 能 将 文件 的 属 主 修改 为 1000。 这 就 像 你 借 了 一 本 书 ， 你 可 以 读 ， 甚 至 可 以 写 ， 但 是 不 能 把 这 
本 书 据 为 己 有 。 松 括 为 一 句 话 ， 修 改 文 件 属 主 需要 chown 特权 。 

文件 的 属 组 id 和 属 主 id 情况 略 有 不 同 。 在 没有 特权 的 情况 下 ， 进 程 可 以 将 文件 的 属 组 id 改 为 
进程 凭证 中 的 某 一 个 组 这 。 在 有 特权 chown 的 情况 下 ， 进 程 可 以 将 文件 的 属 组 id 修改 为 任意 值 。 
chown 和 lchown 的 参数 path 用 于 规定 文件 的 路 径 。 如 果 路 径 是 相对 路 径 ， 就 以 进程 的 当 
前 工作 目录 为 路 径 起 始点 。lchown 的 意思 是 当 目 标 文 件 是 符号 链接 时 ， 对 符号 链接 文件 本 身 操 
作 ，chown 则 是 对 符号 链接 所 指向 的 文件 操作 。 

fchown 和 前 面 两 个 的 不 同 之 处 是 它 根 据 已 打开 的 文件 描述 符 定位 要 操作 的 目标 文件 。 在 
fchownat 系统 调用 中 ， 当 pathname 是 相对 路 径 时 ，dirfd 是 一 个 已 经 打开 的 目录 的 描述 符 ， 用 
作 相 对 路 径 查 找 的 起 始点 。 有 趣 的 是 ， 前 面 三 个 系统 调用 都 可 以 由 fchownat 实现 。fchownat 的 
参数 flags 是 一 个 整数 ， 在 系统 调用 中 内 核 将 flags 的 若干 位 作为 标志 使 用 : 

e 参数 flags 的 AT EMPTY PATH 位 的 值 为 1 时 ，dirfd 对 应 的 文件 是 目标 文件 ， 这 和 fchown 

功能 相同 。 
e 参数 flags 的 AT SYMLINK NOFOLLOW 位 的 值 为 1 时 ， 若 pathname 指向 符号 链接 文 
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件 时 ， 符 号 链接 文件 本 身 是 目标 文件 。 这 歼 盖 了 


Ichown. 


e ^5 dirfd 是 特殊 值 “AT_ FDCWD" lif, pathname 的 相对 路 径 起 点 是 进程 的 当前 工作 目录 。 


iX chown. 
F 面 说 的 是 修改 ， 下 面 看 一 下 查看 ; 








int stat(const char *path, struct 








stat *buf); 


int fstat(int fd, struct stat *buf); 


int lstat (const char *path, struct 
stat 的 定义 是 : 


struct stat { 


stat *buf); 


dev t st dev; /* ID of device containing file */ 


ino t st ino; /* inode number */ 


mode t st mode; /* protection */ 


包含 允许 位 





nlink t st nlink; /* number of hard links */ 


























uid t st uid; /* user ID of owner */ 属 主 和 属 组 
gid t st gid; /* group ID of owner */ 
dev t st rdev; /* device ID (if special file) */ 





off t st size; /* total size, in 


bytes */ 


blksize t st blksize; /* blocksize for file system I/O */ 
blkcnt t st blocks; /* number of 512B blocks allocated */ 


time t st atime;  /* time of last access */ 
time t st mtime; /* time of last modification */ 
time t st ctime;  /* time of last status change */ 


}; 


fstat 取 文 件 描述 符 fd 所 指向 的 文件 的 文件 属性 。 当 












































目标 文件 是 符号 链接 文件 时 ，1lstat 取出 





符号 链接 文件 本 身 的 文件 属性 ，stat 取出 符号 链接 文件 所 指向 的 文件 的 文件 属性 。 
从 上 面 的 数据 结构 看 ，stat 一 族 系统 调用 并 没有 将 所 有 的 文件 属性 都 取出 来 。 



































$4 其 他 客体 


文件 是 使 用 最 普遍 的 一 种 客体 类 型 ， 下 面 看 看 其 他 类 
(D 目录 

目录 就 是 一 种 特殊 的 文件 。 

(2) 管道 




































































型 的 客体 。 





Linux 内 核 将 管道 处 理 为 存储 在 名 为 “pipefs” 的 文件 系统 中 的 文件 ， 是 文件 就 有 inode, 
inode 中 自然 有 属 主 和 属 组 。 一 名 话 ， 管 道 在 内 核 中 和 文件 没有 差异 。 









































om 
































命名 管道 , 即 named pipe; WIX FIFO. WIZ CARH 
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成 一 种 特殊 的 文件 .是 文件 就 有 inode， 


第 3 章 客体 标记 与 文件 属性 
inode 中 有 属 主 和 属 组 。 命 名 管道 和 管道 的 区 别 在 于 命名 管道 有 名 字 , 命名 管道 文件 存在 于 普通 
文件 系统 中 。 而 管道 没有 名 字 ， 内 核 中 的 管道 只 存在 于 特殊 的 pipefs 文件 系统 中 。 

(4) 设备 

与 命名 管道 一 样 ， 内 核 将 设备 处 理 为 特殊 文件 。 

(5) 套 接 字 (socket) 

在 内 核 中 ， 套 接 字 没有 任何 标记 可 用 于 自主 访问 控制 。 或 者 可 以 这 么 说 ， 内 核 的 套 接 字数 
据 结 构 中 没有 用 于 标记 用 户 和 组 的 成 员 。 
有 必要 叙述 一 下 套 接 字 和 套 接 字 文件 的 关系 了 。 和 套 接 字 是 通过 系统 调用 socket 来 创建 的 : 








ed 


























I"; 






























































































































































int socket(int domain, int type, int protocol); 





参数 domain 值 为 AF_ UNIX 或 AF LOCAL (这 两 个 常量 名 对 应 的 值 相 同 ) 时 ， 被 创建 出 
来 的 套 接 字 是 一 个 属于 UNIX 本 地 域 的 套 接 字 。 之 后 针对 此 socket 执行 bind 系统 调用 时 ， 内 核 
会 根据 传 入 的 addr 参数 生成 一 个 套 接 字 文件 。 系 统 调用 bind 的 原型 是 : 


























int bind(int sockfd, const struct sockaddr *addr, socklen t addrlen); 
系统 调用 bind 是 由 作为 服务 器 的 进程 来 调用 的 。 它 的 作用 是 将 套 接 字 和 地 址 绑 定 在 一 起 。 
绑 定 后 ， 服 务 器 进程 就 会 等 待 客户 端 进程 来 “连接 ”。 作 为 客户 端的 进程 会 调用 connect。 系 统 


调用 connect 的 原型 是 : 


















































int connect(int sockfd, const struct sockaddr *addr, socklen t addrlen); 








内 核 在 系统 调用 connect 的 代码 中 会 判断 当前 进程 〈 客 户 端 进程 ) 能 和 否 写 addr 所 表示 的 
socket 文件 。 

综 上 ， 套 接 字 不 等 于 套 接 字 文件 。 内 核 中 套 接 字 本 身 没 有 用 

(6) IPC 

IPC 是 进程 间 通 信 CInter-Process Communication) 的 缩写 。 虽 然 管 道 、 命 名 管道 和 UNIX 
域 套 接 字 都 可 以 用 作 进 程 间 通信 ， 但 是 IPC 一 般 指 共享 内 存 Cshared memory)、 信 号 灯 
(Csemaphore)、 消 息 队 列 (message queue)。 在 内 核 中 ， 这 三 者 的 数据 结构 中 都 有 一 个 类 型 为 
kern ipc_perm 的 成 员 ， 在 其 中 有 uid. gid, cuid, cgid. cuid 和 cgid 标记 创建 者 ，uid 和 gid 标 
记 所 有 者 。 这 两 者 的 区 别 在 于 uid 和 gid 可 以 通过 shmctl、semctl 或 msgctl 修改 , 而 cuid 和 cgid 
在 IPC 对 象 创建 之 后 不 能 被 修改 。 下 面 看 一 下 代码 ; 
































于 访问 控制 的 标记 ! 














































































































include/linux/ipc.h 
struct kern ipc perm 


{ 





spinlock t lock; 

bool deleted; 

int id; 

key t key; 

kuid t uid; 

kgid t gid; 用 户 和 用 户 组 
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kuid t cuid; 
kgid t cgid; 
umode t mode; 允许 位 











unsigned long seq; 





void *security; 强制 访问 控制 相关 
}; 











(7) 密 钥 (key) 
在 Linux 内 核 中 用 struct key 来 表示 密 钥 。 此 结构 中 有 成 员 uid 和 gid 代表 密 钥 的 属 主 和 属 

















E 





include/linux/key.h 
struct key ( 


















































void *security; 

| 强制 访问 控制 相关 | 
kui id; s " 
nma uig ] 户 和 用 户 组 | 
kgid t gid; 
key perm t perm; | 允许 位 








}; 


3.5 ”其 他 客体 的 系统 调用 

















和 文件 类 似 , 3.4 节 讲 述 的 客体 的 属性 也 是 由 内 核 控 制 的 ,内核 提 供 了 几 个 系统 调用 作为 接 
让 用 户 态 进程 可 以 但 看 和 修改 相关 属性 。 

(1) IPC 

IPC 有 三 种 ， 关 于 IPC 属性 的 系统 调用 也 有 三 个 : 









































int shmctl(int shmid, int cmd, struct shmid ds *buf); 
int semctl (int semid, int semnum, int cmd, ...); 


int msgctl(int msqid, int cmd, struct msqid ds *buf); 


当 参 数 cmd 为 IPC STAT 时 , 上 述 系统 调用 用 于 查看 IPC 的 属性 ; 当 参 数 cmd 为 IPC SET HT, 
上 述 系统 调用 用 于 设置 IPC. 属性 。 此 外 ，Linux 扩展 了 参数 cmd 的 取 值 ， 当 参数 为 SHM_STAT OH 
于 系统 调用 shemctD. SEM STAT 〈 用 于 系统 调用 semctt)、MSG _STAT (HF msgctl) 时 ， 内 
核 也 会 通过 参数 返回 IPC 属性 。 

(2) su] 

密 钥 属 性 相关 的 系统 调用 为 : 















































long keyctl(int cmd, ...); 
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此 系统 调用 的 参数 个 数 不 确 定 , 在 第 一 个 参数 cmd 之 后 的 参数 的 类 型 和 个 数 由 cmd 的 具体 

取 值 决定 。 当 cmd 为 KEYCTL_CHOWN 时 ， 此 系统 调用 会 更 改 密 钥 的 属 主 和 属 组 ， 当 cmd 为 
KEYCTL DESCRIBE 时 ， 此 系统 调用 会 通过 参数 返回 密 钥 的 属性 


































































































习题 
































既然 Linux 内 核 将 管道 处 理 为 存储 在 pipefs 文件 系统 上 的 文件 ， 进 程 能 否 更 改 一 个 管道 的 
属 主 和 属 组 呢 ? 编写 一 个 程序 试 一 下 。 
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第 4 莉 操作 与 操作 许可 


4.1 操作 

访问 的 三 要 素 是 主体 、 操 作 和 客体 。 主 
括 文 件 、 目 录 、 管 道 、 设 备 、IPC (进程 
什么 呢 ? 下 面 看 一 个 小 程序 ; 





体 是 代表 用 户 执行 人 有 
间 通 信 )、 


E 务 的 
socket (ERF), 

































































finclude <unistd.h> 


finclude <sys/types.h> 
«sys/stat.h» 


«fcntl.h» 


finclude 


finclude 


int main() 

( 
char buf[1024]; 
ssize t n; 
int rfd; 


rfd = open("input.txt", O RDONLY); 








进程 。 客 体 有 很 多 种 ， 包 
key CHH) 等。 操作 是 



































出 到 进程 的 标准 输出 ， 最 








if (rfd«0) return 1; 
while ((n-read(rfd, buf, 1024))»0) 
if (write(STDOUT FILENO, buf, n) !- n) break; 
close (rfd); 
return 0; 
} 
运行 这 个 程序 产生 的 进程 会 打开 “input.txt” 文 件 ， 读 出 内 容 ， 输 } 
后 关闭 “input.txt” 文 件 。 上 面 程序 所 涉及 的 操作 是 打开 文件 、 读 文件 、 写 文 伯 
































操作 的 本 质 是 什么 呢 ? 操作 其 实 就 是 系统 调 


操作 许可 与 操作 分 类 





H! 


4.2 


F、 操 作文 件 。 

















对 照 访问 的 三 个 要 素 ， 有 了 主体 标记 和 客体 标记 ， 只 要 有 
个 客体 进行 何 种 操作 就 可 以 做 到 访问 控制 了 。 所 以 内 核 需要 在 系统 调用 
那么 极端 的 设计 就 是 为 每 一 个 系统 调用 规定 一 种 或 几 种 操作 许可 
如 此 一 来 ， 几 百 个 系统 调用 就 要 对 应 几 百 个 其 3 

UNIX 的 设计 是 简 六 
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更 多 个 操作 许可 。 


而 有 效 的 。 它 对 操作 进行 了 合并 ， 只 定义 出 4 


























,专门 在 这 个 系统 调 月 





种 方法 规定 哪个 主体 可 以 对 哪 


Hu 


中 判断 相应 的 操作 许可 。 
P1. 














显然 这 种 设计 是 不 好 的 。 








民 少 的 操作 许可 。 它 的 思 


第 4 章 操作 与 操作 许可 
路 是 ， 客 体 是 用 户 的 数据 ， 主 体 是 代表 用 户 来 执行 任务 的 进程 。 人 对 数据 的 基本 操作 就 是 两 个 : 
读 和 写 。 因 此 ， 读 和 写 是 主体 对 客体 的 基本 操作 。 此 外 ， 不 同 的 客体 还 有 自己 的 额外 操作 。 

(1) 文件 

文件 额外 的 操作 是 执行 。 执 行 的 本 质 是 进程 奉 换 自 身 的 内 存 ， 拿 什么 替换 呢 ? 或 是 用 文件 
的 内 容 《〈 二 进 制 可 执行 文件 )， 或 是 用 文件 中 规定 的 另 一 个 文件 的 内 容 《〈 脚 本 语言 )。 进 程 执行 
“执行 ”操作 后 ， 进 程 id 没有 变 ， 进 程 父 子 关 系 没 有 变 ， 但 进程 内 容 变 了 。 再 深究 其 本 质 ， 文 
件 “ 读 ”操作 是 将 文件 内 容 置 入 进程 的 数据 空间 ， 文 件 “ 执 行 ”操作 是 将 文件 内 容 置 入 进程 的 
代码 空间 和 数据 空间 。 所 以 有 的 访问 控制 模型 将 读 和 执行 等 价 。 

(2) 目录 

目录 在 文件 系统 中 就 是 一 种 特殊 的 文件 。 对 目录 的 读 操作 就 是 列 出 目录 的 内 容 ， 对 目录 的 
写 操作 就 是 自 目 录 中 删除 文件 / 子 目 录 或 添加 文件 / 子 目 录 ， 这 也 可 以 看 作 是 修改 目录 的 内 容 。 
对 目录 的 执行 操作 有 些 难 理解 ， 可 以 用 一 个 词 “ 通 过 ”来 概括 其 含义 。 比 如 访问 文件 
“Jusr/bin/bash”， 内 核 根据 路 径 名 查找 文件 的 过 程 是 这 样 的 : 先 找到 根 路 径 “/” 在 “/” 下 查找 
“usr”, 找到 后 ， 在 “usr” 下 查找 “bin”， 最 后 在 “bin” 下 查找 “bash”。 内 核 依次 “通过 ”了 
三 个 目录 :“/”“usr” "bin", 内 核 要 求 发 起 请 求 的 进程 具有 这 三 个 目录 的 执行 许可 。 目 录 的 
读 操 作 和 执行 操作 的 区 别 可 以 用 下 面 这 个 例子 解释 。 键 入 命令 “ls /usr/bin", Linux 系统 启动 一 
个 进程 运行 ls， 这 个 进程 需要 具有 “/” 和 “usr” 的 执行 许可 ， 具 有 “bin” 的 读 许 可 。 

关于 目录 的 写 操作 有 一 点 需要 指出 ， 删 除 一 个 文件 不 需要 文件 本 身 的 任何 操作 许可 ， 需 要 
的 只 是 对 文件 所 在 目录 的 写 操作 许可 。 这 一 点 常常 让 新 用 户 迷 惑 ， 不 能 写 文 件 ， 却 可 以 把 文件 
删 掉 ! 

(3) 管道 

(4) 命名 管道 

(5) 设备 

在 Linux 内 核 中 ， 管 道 是 创建 于 pipefs 文件 系统 上 的 匿名 文件 ， 命 名 管道 和 设备 是 特殊 类 
型 的 文件 。 它 们 都 是 文件 ， 也 就 都 有 执行 操作 许可 ， 尽 管 执 行 对 它们 没有 意义 

(6) IPC CHEFE HME) 

IPC (进程 间 通 信 ) 是 指 消 息 队 列 (Message Queue), fii 4] (Semaphore), 共享 内 存 (Shared 
Memory). IPC 在 内 核 中 不 是 作为 特殊 文件 实现 的 ， 所 以 可 以 做 得 彻底 些 ，IPC 只 有 两 个 操作 
许可 : 读 和 写 。 

(7) socket 〈 套 接 字 ) 

Linux 内 核 没 有 对 套 接 字 定义 操作 许可 。 

(8) key CE) 

key 2E 49], keyring 是 密 钥 环 。key 可 以 类 比 文件 ， 和 文件 一 样 ，key 也 有 属性 ， 比 如 类 型 
和 描述 ;文件 有 内 容 ，key 的 内 容 是 payload (负载 )， 即 实际 的 密 钥 数据 。keyring 可 以 类 比 目 
录 ， 目 录 包 含 文件 和 子 目 录 ，keyring 包含 key 和 子 keyrings key 上 的 操作 类 型 比较 多 ， 有 六 个 。 

1) read 读 。 对 于 key 是 允许 读 出 key 的 payload (负载 , 实际 的 密 钥 数据 ); 对 于 keyring 
是 列 出 keyring 上 附着 的 key 或 子 keyring。 









































































































































































































































































































































































































































































































































IE i 








































































































2) write 写 。 对 于 key 是 初始 化 或 修改 payload; 对 于 keyring 是 在 其 下 增加 或 删除 key 
或 keyring。 
3) search 一 一 搜索 。search 包含 两 层 意思 ， 一 是 搜索 ， 二 是 被 搜索 。 进 程 在 某 一 个 keyring 
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上 搜索 一 个 key， 一 般 是 通过 keyring 的 id 和 key 的 描述 进行 ， 那 么 进程 需要 具有 keyring 上 的 
search 许可 〈 搜 索 )， 还 要 具有 key 的 search 许可 〈 被 搜索 )。 















































4) link 一 一 链接 。 将 key 链接 到 一 个 keyring 上 ， 既 需要 keyring 的 写 操作 许可 ， 又 需要 key 
的 link 操作 许可 。 
5) view 一 一 查看 。 查 看 key 或 keyring 的 属性 ， 比 如 类 型 和 描述 。 





























6) setattr 设置 属性 。 修 改 key 的 属 主 、 属 组 、 人 允许 位 。 
通过 和 文件 及 目录 的 对 比 ， 我 们 可 以 发 现 ， 上 面 的 search 操作 是 在 目录 的 执行 操作 基础 上 
增加 文件 / 子 目录 的 被 搜索 语义 。link 操作 是 为 了 弥补 删除 文件 或 添加 文件 的 链接 2， 不 需要 文 
件 本 身 的 操作 许可 。view 和 setattr 是 增加 了 对 属性 的 操作 控制 。 


43 人 允许 位 


UNIX 在 诞生 之 初 就 采用 了 一 种 相对 简单 的 方式 来 管理 操作 许可 ， 这 种 方式 被 Linux 继承 ， 
以 文件 为 例 : 

(1) 在 每 个 文件 的 属性 中 存储 文件 所 属 的 用 户 《〈 属 主 ) 和 所 属 的 用 户 组 〈 属 组 )。 

(2) 根据 用 户 的 属 主 和 属 组 将 所 有 用 户 分 为 三 类 : 同 主 用 户 、 同 组 用 户 、 其 他 用 户 。 

(3) 在 每 个 文件 的 属性 中 为 三 类 用 户 分 别 存储 访问 许可 。 

下 面 举 个 例子 : 文件 a 的 属 主 id 为 1000， 属 组 id 为 10000， 访 问 许可 为 : 允许 同 主 用 户 读 
号， 允许 同 组 用 户 读 ， 不 允许 其 他 用 户 任何 操作 。 进 程 A 的 fsuid 为 1000， 那 么 进程 A 可 以 读 
写 文件 a。 进 程 B 的 fsuid 为 1001, fsgid 为 10000， 那 么 进程 B 可 以 读 文件 a。 进 程 C 的 fsuid 
24 1002, fsgid 为 10001, supplementary group id X 10003, 100049, IRA XEFE C 不 能 对 文件 a 
执行 任何 操作 。 

内 核 代 码 采 用 一 个 bit 来 表示 一 个 操作 许可 ， 对 于 文件 就 需要 9 个 bit 来 表示 文件 的 操作 许 
可 : 同 主 读 、 同 主 写 、 同 主 执行 、 同 组 读 、 同 组 写 、 同 组 执行 、 其 他 读 、 其 他 写 、 其 他 执行 。 
这 些 表 示 操 作 许可 的 比特 位 合 在 一 起 就 成 为 permission bits， 即 允许 位 。 

其 他 的 客体 也 类 似 。IPC 只 有 两 个 操作 许可 ， 所 以 只 需要 6 个 比特 位 。 在 语义 上 IPC 做 了 
一 点 扩展 ，IPC 属性 中 有 属 主 id 和 属 组 id， 还 有 创建 者 id 和 创建 组 id。 属 主 id 相等 和 创建 者 
id 相等 都 被 视 为 同 主 ， 属 组 id 相等 和 创建 组 id 相等 都 被 视 为 同 组 。 

举 个 例子 ， 消 息 队 列 m， 属 主 1000， 属 组 10000， 创 建 者 2000， 创 建 组 20000， 同 主人 允许 
写 ， 同 组 允许 读 ， 其 他 不 许 读 也 不 许 写 。 进 程 A 的 eud 为 1000， 属 于 同 主 ， 人 允许 写 ; 进程 B 
的 euid 为 2000， 也 属于 同 主 ， 人 允许 号， 进程 C HI euid X 3000, egid 为 10000， 属 于 同 组 ， 允 
许 读 ， 进 程 D D 的 euid 为 3000，egid 为 20000， 也 属于 同 组 ， 人 允许 读 ;， WTE E H euid 为 3000， 
egid 为 30000, 并 且 supplementary group id 中 没有 10000 和 20000, 属于 其 他 , 不 可 读 也 不 可 写 。 

密 钥 的 操作 许可 是 6 个 , 它 的 允许 位 需要 18 个 比特 位 。 密 钥 在 操作 许可 的 使 用 上 有 一 点 扩 
展 。 有 一 类 进程 被 标记 为 拥有 密 钥 的 进程 ， 这 类 进程 会 有 额外 的 许可 ， 作 为 正常 获得 的 许可 的 
补充 。 比 如 进程 A 是 密 钥 a 的 同 主 进程 , 许可 是 可 以 读 和 写 , 同时 进程 A 又 是 密 钥 a 的 拥有 者 ， 
额外 获得 了 setattr 许可 ， 那 么 进程 A 就 可 以 对 密 钥 a 进行 读 、 写 、setattr 操作 。 
























































































































































































































































































































































































































































































































































O 这 里 的 链接 是 所 谓 的 硬 链接 ， 不 是 符号 链接 。 
Q 还 记得 补充 组 id 的 作用 吗 ? 如 果 补 充 组 中 出 现 了 10000， 那 么 进程 C 就 有 文件 a 的 同 组 访问 许可 了 。 
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第 4 章 操作 与 操作 许可 





4.4 


设置 位 


4.4.1 文件 








最 初 UNIX 为 文件 分 配 了 九 个 允许 位 ,对 应 三 类 用 户 ( 同 主 、 同 组 、 











他 ), 三 种 操作 ( 读 、 





写 、 执 行 )。 后 来 ,， UNIX 又 增加 了 三 个 允许 位 : set-user-bit (又 称 set-user-id 或 setuid), set-group-bit 


(又 称 set-group-id 或 setgid), set-other-bit (XFX sticky bit)。 看 起 来 似乎 是 为 文件 
set 操作 ， 但 实际 上 不 是 这 样 ， 这 三 个 允许 位 与 操作 许可 无 关 。 

] execve 执行 了 一 个 允许 位 setuid 为 1 的 文件 后 ， 进 
Linux 特有 的 fsuid， 被 改变 为 所 执行 文件 的 属 主 id。 效 果 就 是 进程 执行 文件 不 仅 将 文件 的 内 


























先 说 setuid。 进 程 调 


























读 入 进程 的 代码 区 内 存 和 数据 区 内 存 ， 还 将 文件 属性 中 的 部 分 数据 读 入 进程 凭证 
可 以 操作 一 些 以 前 不 能 操作 的 客体 。 





引入 setuid 更 深层 的 目的 是 特权 提升 ! 

UNIX 的 设计 是 简单 的 ， 一 些 任 务 
id 为 0 的 root。 如 果 普 通用 户 需要 做 
用 户 需要 加 载 一 块 新 硬盘 。 但 是 有 的 特权 操作 使 


络 实体 存在 的 ping 命令 。 总 是 请 管 做 ping 





f E 









































r1 


理 员 











只 能 由 特权 用 户 来 做 ， 而 特权 用 户 只 有 
些 特权 操作 ， 


操作 实在 没有 必要 。 




















程 

















新 增加 了 一 种 


的 euid, XA 


PN 

















。 于 是 ， 进 程 


























个 ， 就 是 用 户 























管理 


(2. 5 
LET 





那么 正规 的 做 法 是 请 求 
用 频繁 ， 又 不 会 对 系统 带 来 
怎么 办 呢 ? 
























































程 





以 执行 ping 命令 ， 让 运行 ping 的 进 
1) ping 文件 的 属 主 是 root。 
2) ping 文件 的 setuid 位 被 置 位 。 


























3) ping 文件 的 允许 位 设置 为 所 有 人 都 可 以 执行 。 




















就 像 这 样 : 





zhi 
-rwsr-xr-x 1 root root 35712 11 H 





setuid 机 制 是 由 UNIX 设计 者 之 一 ， 伟 大 的 Dennis Ritchie， 在 贝尔 实验 室 发 





Cubuntu-desktop:/work/latex$ ls -1 /bin/ping 


8 2011 /bin/ping 





验 室 还 为 此 申请 了 一 项 专利 : US 4135240。 不 过 此 专利 被 贝尔 实验 室 放 入 了 公 





UNIX 类 操作 系统 不 必 担 心 侵权 。 








setgid 与 setuid 类 似 ， 不 同 的 是 进程 凭证 中 egid 和 fsgid 被 设置 为 文 伯 


H 


特权 无 关 ， 因 为 UNIX 的 特权 只 与 euid 是 否 为 0 











相关 ， 任 何 组 id 都 和 特权 无 关 。 





set-other-id 又 叫 sticky bit, 
文件 的 进程 终止 时 ， 进 程 的 代码 段 仍 被 


























因为 在 UNIX A V | 
保留 在 磁盘 








曾 引入 这 样 


H 









































文件 时 , 进 
在 Linux 中 文件 的 sticky bit 已 无 任何 作用 。 


442 Hs 
在 Linux 系统 中 ， 









































在 此 目录 下 创建 的 文件 和 子 目录 的 属 组 自动 初始 化 为 





eu 
H H5 








的 作用 是 在 其 下 的 文件 / 子 目录 只 能 被 该 文件 / 子 














目录 上 的 set-user-id 位 没有 任何 作用 ; 而 






































录 的 属 组 ; 目录 的 set-othe 


























目录 的 属 主 删 除 。 典 型 











zNLE 





fL FE SZ Pg R s Iz EH 


员 代 劳 ， 比 如 
， 比 如 探知 网 
让 任何 人 都 可 





kt 有 特权 ， 就 可 以 了 。 它 实现 起 来 是 这 样 的 : 


明 的 。 贝 尔 实 
领域 ， 所 有 


























F 的 属 组 ido setgid 与 


ME: 当 执 行 着 set-other-id 
交换 区 。 这 样 的 好 处 是 ， 下 次 再 执行 同样 的 
程 可 以 快速 启动 。 现 在 此 代码 逻辑 只 残存 于 不 多 的 UNIX 类 操作 系统 ! 




















, 比如 HP-UX。 


目录 的 set-group-id 的 作用 是 ， 


r-id( sticky bit) 
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录 /tmp 的 sticky bit EM o 














45 其 他 操作 的 许可 














UNIX 在 操作 许可 上 的 设计 是 简单 的 。UNIX 在 有 些 操作 上 没有 自主 访问 控制 , 比如 在 套 接 
字 上 的 大 部 分 操作 ; UNIX 对 有 些 操作 的 控制 依赖 于 固定 的 内 核 代码 逻辑 ， 用 户 无 法 配置 ， 比 
如 只 有 文件 的 属 主 才能 够 修改 文件 的 允许 位 。 


46 系统 调用 





































































































第 3 章 讲述 的 查看 客体 属性 的 系统 调用 可 以 查看 客体 的 允许 位 ， 因 为 允许 位 也 是 一 种 客体 
属性 。 第 3 章 讲 述 的 shmctl、semctl、msgctl 可 以 修改 IPC 上 的 允许 位 ，keyctl 可 以 修改 密 钥 上 














的 允许 位 。 通 过 系统 调用 chmod 和 fchmod 可 以 修改 文件 和 目录 上 的 允许 位 。 








int chmod(const char *path, mode t mode); 
int fchmod(int fd, mode t mode); 








1. 查看 文件 的 属性 也 是 一 种 操作 ， 内 核 在 什么 情况 下 允许 这 种 操作 ? 
2. 下 面 这 段 程序 中 对 变量 “i” 的 赋值 能 否 算是 一 种 操作 ? 内 核 可 以 对 此 进行 控制 吗 ? 












































#include <stdio.h> 


int main() 

( 
int i; 
scanf ("%d", &i); 
printf("i-$dNMn", i); 
return 0; 


) 


3. 为 什么 没有 改变 符号 链接 文件 允许 位 的 Ichmod 系统 调用 ? 
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第 5 卫 访问 控制 列表 

















从 某 个 文件 的 角度 看 ，UNIX 通过 文件 属性 中 的 属 主 和 属 组 ， 把 系统 中 的 进程 分 为 三 类 : 
同 主 、 同 组 、 其 他 。UNIX 通过 文件 属性 中 允许 位 的 九 个 比特 ， 使 这 三 类 进程 分 别 拥 有 自己 的 
操作 许可 。 这 种 设计 真是 精巧 ! 

Linux 对 此 进行 了 扩展 : 

(1)〉 从 单个 文件 的 角度 看 ， 系 统 中 的 进程 可 以 不 止 三 类 。 除 了 同 主 、 同 组 、 其 他 外 ， 还 可 
以 有 某 用 户 的 进程 如 何如 何 ， 研 发 组 的 进程 如 何如 何 。 

(2) 分 类 可 以 动态 添加 和 删除 。 

这 个 扩展 就 是 访问 控制 列表 ，Access Control List, ER ACL. 访问 控制 列表 只 作用 于 文件 
和 目录 。 


52 扩展 属性 


访问 控制 列表 存储 在 文件 的 扩展 属性 之 中 。 下 面 先 讲述 一 下 文件 的 扩展 属性 。 

文件 属性 出 现 得 很 早 ， 可 能 自 UNIX 诞生 之 日 起 就 有 了 。 后 来 人 们 渐渐 发 现 文件 属性 不 够 
用 ， 需 要 扩展 。 而 且 这 种 扩展 最 好 是 灵活 的 ， 可 以 让 用 户 在 系统 运行 时 自行 添加 和 修改 。 因 此 ， 
简单 地 在 内 核 代码 中 扩展 inode 数据 结构 是 不 能 满足 需求 的 。 于 是 就 产生 了 扩展 属性 。 

在 支持 扩展 属性 的 文件 系统 中 ，inode 和 扩展 属性 在 存储 设备 上 是 分 开 存 储 的 ， 在 inode 中 
保留 一 个 关联 到 扩展 属性 的 索引 。 扩 展 属 性 本 身 则 被 实现 为 一 个 数组 ， 数 组 项 又 分 为 属性 名 和 
属性 值 两 部 分 。 属 性 名 是 一 个 字符 串 ， 属 性 值 可 以 是 任意 类 型 。 属 性 名 字符 串 本 身 也 是 有 格式 
的 ， 它 由 “.” 分 割 为 若干 域 ， 比 如 “system.posix_acl_ access”。 其 中 第 一 个 域 必 须 是 下 列 四 个 
之 一 : user、system、trusted、security， 表 示 它 们 分 别 用 于 应 用 、 系 统 、 可 信和 安全 。 

和 访问 控制 列表 相关 的 扩展 属性 有 两 个 ， 属 性 名 分 别 是 system.posix acl access 和 
system.posix acl default. 


5.3 结构 


访问 控制 列表 被 实现 为 一 个 变 长 的 数组 : 
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include/linux/posix acl.h 
struct posix acl { 


union { 
atomic t a refcount; 
struct rcu head a rcu; 


}; 
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unsigned int a count; 





变 长 数组 


struct posix acl entry a entries[0]; 


}; 








ACL entry 的 格式 为 : tag id permission-bits。permission-bits 就 是 三 个 比特 ， 分 别 表 示 读 、 
写 、 执 行 。 记 是 用 户 庆 或 组 id。 














include/linux/posix acl.h 
struct posix acl entry ( 








short e tag; 
unsigned short e perm; 
union { 
kuid t e uid; 
kgid t e gid; 
E 
}; 
tag 有 很 多 值 : 











(1)? ACL USER 为 某 一 个 用 户 规定 操作 许可 。 

id 存储 的 是 用 户 id, 当 进 程 fsuid 与 该 项 id 相同 时 ,进程 对 文件 的 操作 许可 由 此 项 ACL entry 
中 的 permission-bits 规定 (后 面 会 讲述 操作 许可 还 会 受到 ACL MASK 项 影响 )。 

(2) ACL GROUP 为 某 一 个 组 规定 操作 许可 。 

id 存储 的 是 组 id， 当 进程 fsgid 与 该 项 id 相同 时 ,进程 对 文件 的 操作 许可 由 此 项 ACL entry 
中 的 permission-bits 规定 (后 面 会 讲述 操作 许可 还 会 受到 ACL MASK 项 影响 )。 

ERAP tag 可 以 在 ACL 中 出 现 多 次 ， 也 可 以 根本 不 出 现 。 有 了 这 两 种 tag，ACL 就 可 以 
具体 记录 一 个 用 户 或 一 个 组 的 操作 许可 。 也 就 实现 了 所 谓 的 细 粒 度 访 问 控制 。 

(3) ACL USER OBJ 规定 文件 属 主 的 操作 许可 。 

(4) ACL GROUP 0OBJ 规定 文件 属 组 的 操作 许可 。 

(5) ACL OTHER. 

当 一 个 进程 的 fsuid 和 任何 一 项 ACL USER 中 规定 的 id 都 不 匹配 ，fsgid 和 任何 一 
ACL GROUP 中 规定 的 id 都 不 匹配 ，fsuid 不 等 于 文件 的 属 主 ， 且 fsgid 不 等 于 文件 的 属 组 ， 此 
时 进程 对 文件 的 操作 许可 由 此 项 中 的 permission-bits 规定 。 

(6) ACL MASK。 

从 设计 的 角度 ， 前 面 五 种 ACL entry 已 经 可 以 完成 细 粒 度 访问 控制 的 目的 了 。ACL MASK 的 引 
入 是 为 了 给 规定 的 部 分 操作 许可 设置 一 个 上 限 。 进 程 从 ACL USER. ACL GROUP, ACL 
GROUP OBJ 项 获得 的 操作 许可 如 果 不 出 现在 ACL MASK 项 的 permission-bits 中 ， 该 操作 许可 会 被 
清除 。ACL GROUP OBJ 和 ACL USER OBJ 逻辑 上 应 该 是 联系 在 一 起 的 ， 这 里 只 限制 
ACL GROUP OBJ 而 不 限制 ACL_USER_OBJ， 有 些 怪 。 相 关 代 码 在 fs/posix acl.c 的 posix acl 
permission 函数 中 。 

ACL USER 和 ACL_GROUP 项 被 称 为 长 格式 ， 这 两 项 的 id 必须 是 有 效 值 。 长 格式 项 可 以 
EM 0 次 或 多 次 。 其 余 四 项 被 称 为 短 格式 ， 因 为 它们 的 id 值 无 所 谓 ， 在 文件 系统 具体 实现 中 ， 
为 了 市 约 存储 空间 ， 这 些 项 的 id 可 能 被 省 略 。ACL_USER_OBJ、ACL_ GROUP OBJ, 
ACL OTHER 必须 出 现 一 次 ,。 当 ACL 中 含有 ACL USER 项 和 ACL GROUP 项 时 , ACL MASK 
必须 出 现 一 次 ; 当 ACL 中 没有 ACL_USER 项 和 ACL GROUP 项 时 , ACL MASK 可 以 不 出 现 。 
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5.4 操作 许可 


ACL 使 管理 的 粒度 变 细 ， 相 应 地 ， 控 制 逻辑 也 变 复 杂 了 
COD 如 果 进 程 的 fsuid 等 于 文件 的 属 主 ， 则 判断 进程 申请 的 操作 是 否 在 ACL_USER_OBJ 
项 的 permission-bits 中 ， 若 是 ， 返 回 允 许 ， 人 否则 返回 拒绝 。 
(2) 如 果 进 程 的 fsuid 等 于 文件 的 某 一 项 ACL_USER 中 规定 的 这 ， 则 判断 进程 申请 的 操作 
是 否 在 该 项 的 permission-bits 和 ACL MASK 项 的 permission-bits HZR F, F, BEA, 
否则 返回 拒绝 。 
(3) 如 果 进 程 的 fsgid 或 补充 组 中 的 任何 一 个 gid 等 于 文件 的 属 组 或 某 一 项 ACL. GROUP 
中 规定 的 id, Bj: 
1) 如 果 文 件 没有 ACL_MASK 项 , 则 判断 进程 申请 的 操作 是 否 在 该 项 的 permission-bits ' 
若是 ， 返 回 允 许 ， 和 否则 返回 拒绝 。 
2) 如 果 文 件 有 ACL MASK 项 ， 则 判断 进程 申请 的 操作 是 否 在 该 项 的 permission-bits 和 
ACL MASK 项 的 permission-bits 的 交集 中 ， 基 是， 返回 允 许 ， 否 则 返回 拒绝 。 
(4) 如 果 进 程 申请 的 操作 出 现在 ACL. OTHER 项 的 permission-bits F, REF, FUR 
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回 拒绝 。 
99 两 种 AL 
ACL 有 两 种 : 
(1) ACCESS 一 一 对 应 扩展 属性 名 “system.posix_acl_ access ”。 
ACCESS 类 型 用 于 判断 进程 对 文件 或 目录 的 操作 许可 。 
(2) DEFAULT 一 一 对 应 扩展 属性 名 “system.posix_acl default". 











DEFAULT 类 型 出 现在 目录 上 ， 用 于 参与 确定 目录 中 新 文件 或 新 目录 的 初始 ACCESS 型 
ACL。 所 谓 参 与 是 指 它 不 是 唯一 的 因素 ， 比 如 creat 系统 调用 的 参数 mode 和 进程 的 umaskS 也 
参与 确定 新 文件 的 ACCESS 型 ACL。 


90 与 允许 位 的 关系 


允许 位 分 为 三 部 分 : 三 个 比特 位 表示 同 主 进程 的 操作 许可 ， 三 个 比特 位 表示 同 组 进程 的 操 
WWT, 三 个 比特 位 表示 其 他 进程 的 操作 许可 。 这 三 部 分 很 自然 地 和 ACL 中 ACL_USER_OBT、 
ACL GROUP OBJ. ACL OTHER 对 应 。 改 允许 位 ，ACL 跟着 变动 ; 改 ACL， 人 允许 位 跟着 变 
动 。 属 组 部 分 的 允许 位 有 一 个 例外 : 当 ACCESS 型 ACL 有 ACL MASK 项 存在 时 ， 属 组 部 分 
允许 位 和 ACL MASK 项 的 permission-bits 对 应 。 反 之 ， 当 ACCESS 型 ACL 没有 ACL MASK 
项 存在 时 ， 属 组 部 分 允许 位 和 ACL GROUP OBJ 项 的 permission-bits 对 应 。 


9.1. 系统 调用 


访问 控制 列表 本 身 没有 系统 调用 ， 进 程 可 以 通过 扩展 属性 相关 的 系统 调用 查看 或 设置 访问 
控制 列表 。 






























































































































































O 内 核 中 进程 的 task. struct 有 个 成 员 fs, fs 有 个 成 员 umask。 
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设置 扩展 属性 的 系统 调用 是 : 























int setxattr(const char *path, const char *name, const void *value, size t 
Size, int flags); 

int lsetxattr(const char *path, const char *name, const void *value, size t 
Size, int flags); 


int fsetxattr (int fd, const char *name, const void *value, size t size, int flags); 





Isetxattr 与 setxattr 的 区 别 在 于 ， 若 目标 文件 是 符号 链接 ，lsetxattr 设置 符号 链接 本 身 ， 
fsetxattr 通过 文件 描述 符 来 查找 目标 文件 。 因 为 扩展 属性 的 值 可 以 是 任意 类 型 ， 所 以 系统 调用 
参数 需要 有 指示 值 大 小 的 “size”。 人 参数“flags” 贡 献 两 个 比特 位 ， 一 个 是 XATTR_CREATE， 
置 位 表示 纯粹 的 添加 ， 若 参数 “name ”表示 的 扩展 属性 存在 ， 则 失败 。 男 一 个 是 
XATTR REPLACE， 置 位 表示 纯粹 的 蔡 换 ， 若 参数 “name” 表 示 的 扩展 属性 不 存在 ， 则 失败 。 

获取 扩展 属性 值 的 系统 调用 是 : 















































































































































ssize t getxattr (const char *path, const char *name, void *value, size t size); 


ssize t lgetxattr(const char *path, const char *name, void *value, size t size); 





ssize t fgetxattr(int fd, const char *name, void *value, size t size); 


参数 “size” 表 示 参 数 “value” 所 指向 的 缓冲 区 的 大 小 。 返 回 值 代表 读 出 的 扩展 属性 值 的 
长 度 。 若 “size” 为 0， 则 返回 实际 的 扩展 属性 值 的 长 度 。 
获取 扩展 属性 名 的 系统 调用 是 : 





















































ssize t listxattr(const char *path, char *list, size t size); 





ssize t llistxattr(const char *path, char *list, size t size); 


ssize t flistxattr(int fd, char *list, size t size); 














参数 “size” 表 示 参 数 “list” 所 指向 的 缓冲 区 的 大 小 。 返 回 值 代表 读 出 的 扩展 属性 名 的 总 
长 度 。 若 “size” 为 0， 则 返回 实际 的 扩展 属性 名 的 总 长 度 。 所 有 的 扩展 属性 名 都 是 以 “0” 结 
尾 的 字符 串 ， 它 们 被 依次 存 入 “list” 所 指向 的 缓冲 区 之 中 。 内 核 在 系统 调用 的 实现 代码 中 会 忽 
略 进程 无 权 查 看 的 扩展 属性 。 

最 后 是 删除 扩展 属性 的 系统 调用 ， 






















































































int removexattr(const char *path, const char *name); 
int lremovexattr(const char *path, const char *name); 


int fremovexattr(int fd, const char *name); 


5.8 ”参考 资料 











在 Linux shell 中 运行 “man acl”， 可 以 得 到 关于 文件 的 访问 控制 列表 的 说 明 。 








习题 


























访问 控制 列表 只 作用 于 文件 和 目录 ， 有 没有 方法 能 在 别 的 客体 上 实现 访问 控制 列表 ? 如 何 
实现 ? 
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61 什么 是 能 


UNIX 的 自主 访问 控制 的 设计 是 简单 而 高 效 的 。 前 面 儿童 讲述 了 自主 访问 控制 的 一 部 分 ， 
基于 允许 位 及 作为 允许 位 扩展 的 访问 控制 列表 (ACL) 的 访问 控制 逻辑 。 其 基本 思想 就 是 ， 主 
Jk (进程 》 有 若干 14， 客 体 ( 文 件 、 目 录 、 管 道 、IPC、socket……) 有 属 主 id 和 属 组 id， 此 外 
客体 中 还 存储 了 允许 位 或 访问 控制 列表 (ACL)。 当 主体 访问 客体 时 ， 先 比较 id， 根 据 结 果 ， 取 
出 允许 位 的 一 部 分 作为 操作 许可 。 但是， 有 些 情况 是 上 述 逻 辑 无 法 覆盖 的 , 例如 设置 系统 时 间 ， 
又 如 重启 系统 。 这 就 涉及 UNIX 自主 访问 控制 的 另 一 部 分 : 特权 机 制 。 

特权 分 为 两 类 ， 一 类 是 无 法 纳入 允许 位 控制 的 任务 ， 例 如 上 述 设置 系统 时 间 和 重启 系统 ; 
还 有 一 类 是 超越 允许 位 控制 ， 就 是 在 允许 位 不 允许 操作 的 情况 下 ， 仍 然 进行 操作 。UNIX 的 特 
权 机 制 设计 得 很 简单 , 内 核 判 断 一 个 进程 是 否 具 有 特权 就 是 看 进程 凭证 中 的 euid 是 否 为 0。euid 
为 0 的 进程 就 是 拥有 特权 的 进程 。 特 权 进 程 可 以 执行 任何 任务 ， 还 不 受 允 许 位 约束 。 

特权 的 英文 是 privilege。 能 力 的 英文 是 capability， 是 对 特权 的 另 一 种 称呼 。 在 本 书 中 ， 这 
两 个 词 同 义 。 

特权 机 制 的 设计 是 简单 、 高 效 、 了 巧妙 的 。 如 果 没 有 它 ， 为 了 解决 设置 系统 时 间 这 类 任务 ， 
势必 引入 新 的 客体 类 型 ， 或 者 引入 一 种 新 的 文件 类 型 。 第 7 章 讲 到 的 SELinux 就 引入 了 一 堆 奇 
怪 的 、 难 以 理解 的 客体 类 型 。 但 是 凡事 都 有 利 次 ， 特 权 也 是 对 系统 安全 的 潜在 威胁 ， 因 为 拥有 
特权 的 进程 可 以 不 受 任何 限制 。 

在 Linux 还 处 于 童年 的 时 候 ， 在 众多 UNIX 类 操作 系统 蓬勃 发 展 的 时 候 ， 各 UNIX 厂商 就 
已 经 考虑 如 何 缩小 特权 机 制 对 安全 的 威胁 。 在 20 世纪 90 年 代 中 期 ，UNIX 厂商 酝酿 了 两 个 标 
准 草 案 : IEEE 1003.1e 和 IEEE 1003.2c。 其 中 提 到 了 将 特权 分 割 为 知 干 互 不 相干 的 小 特权 ， 命 
名 为 能 力 (capability)。 这 样 进程 就 有 可 能 不 具有 全 部 特权 ， 而 只 拥有 需要 完成 任务 的 儿 个 能 
力 ， 这 也 就 实现 了 所 谓 的 最 小 特权 原则 。 可 惜 的 是 这 两 个 草案 没有 最 后 称 为 标准 。 当 年 参与 讨 
论 的 IRIX, Solaris, HP-UX 等 操作 系统 也 先后 淡出 。 斗 转 星 移 ，Linux 势力 渐 长 ， 成 为 UNIX 
类 操作 系统 的 主流 。 

Linux 很 早 就 对 能 力 方案 感 兴趣 ， 经 过 几 个 版 本 的 演进 ，Linux 参考 IEEE. 1003.le 和 IEEE 
1003.2c 实现 了 自己 的 能 力 机 制 。 


6.2 ”能力 列举 


下 面 先 列 出 在 Linux 3.14 rc4 中 出 现 的 所 有 能 力 : 























































































































































































































































































































































































































































































































0. chown 
1. dac override 
2. dac read search 
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UNIX 对 访问 《或 者 叫 操作 ) 的 控制 分 为 


fowner 

fsetid 

kill 

setgid 

setuid 

setpcap* 

linux immutable* 
net bind service 
net broadcast 


net admin* 





net raw* 


. ipc lock 

. ipc owner 

. Sys module* 

. SyS rawio* 

. Sys chroot* 

. SyS ptrace 

. Sys pacct* 

. SyS admin* 

. Sys boot* 

. Sys nice 

. Sys resource* 
. Sys time* 

. Sys tty config* 
. mknod 

. lease 

. audit write* 
. audit control* 
. Setfcap* 

. mac override* 
. mac admin* 

. Syslog* 


. wake alarm* 


block suspend* 

















类 。 第 一 类 由 允许 位 控制 ， 第 二 类 由 属 主 控制 ， 
































Ag — 

如 文件 的 属 主 可 以 修改 文件 的 允许 位 ， 第 三 类 由 特权 控制 ， 如 系统 重启 动 。Linux 的 能 力 可 以 

分 为 两 类 ， 一 类 是 超越 允许 位 控 

无 论文 件 的 允许 位 是 否 允许 ; 第 二 类 是 关联 了 特权 独 有 操作 ,， 即 没有 特权 就 不 能 执行 某 种 操作 ， 

比如 没有 sys boot 就 不 能 重启 动 系统 。 有 些 能 力 标 注 了 “* ”表示 该 能 力 关 联 特权 独 有 操作 。 
下 面 简单 按照 能 力 关 联 的 操作 对 象 分 类 介绍 Linux 能 力 。 








6.2.1 文件 


(1 ) chown。 改 变 文 价 


fsuid 等 于 文 伯 
的 值 。 
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出 和 属 主 控制 ， 如 拥有 dac override 的 进程 可 以 读 写 任意 文件 ， 









































F 的 属 主 或 属 组 。 改 变 属 主 是 一 个 特权 独 有 操作 ， 但 是 改变 属 组 不 是 。 
FEX id 的 进程 可 以 将 文件 的 属 组 id 改 为 进程 的 egid. fsgid 或 某 一 个 补充 组 id 








A xu 2u 


"th 0 草 





能 力 (capabilities) 





(2) dac_override。 不 顾 允 许 位 限制 对 文 伯 
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过 操作 。 也 就 是 说 ， 文 











é€ 

















例外 ， 其 他 操作 都 是 


AE 














行文 件 。 内 核 判断 文件 是 否 可 执行 的 标准 是 文件 的 允许 位 中 的 
其 他 可 执行 位 至 少 有 一 位 被 置 位 。 






































行文 人 


(3) dac read search. ABI RBR 


(4) fowner。 拥 有 此 能 力 的 i 
V CALCE RTI Jes HORT Fe Je A 

















内 核 的 逻辑 是 
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63) 








进行 读 、 写 、 执 行 操 作 ， 对 
或 目录 的 允许 位 限制 不 了 拥有 dae override 能 力 的 进 























目录 进行 读 、 写 、 通 





程 。 








自然 ”存在 的 ， 唯 独 文 件 的 执行 操作 不 是 ， 它 要 求 文件 必须 





但 是 有 
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个 


一 个 可 执 











可 
[E 








FE《〈 属 主 可 执行 位 、 属 组 可 执行 位 、 其 他 可 执行 位 都 被 清 零 )。 


主 可 执行 位 、 
JA dac override 的 进程 执行 一 个 不 可 执 

















bise 











(5) fsetid。 这 个 能 力 和 文人 
时 修改 文件 时 ， 
-group-id 位 。 出 于 安全 考虑 ， 
时 修改 文件 属性 导致 文 伯 





L 
Li 












































(6) linux im 


basés BC 











拥 F 无 法 被 删除 。 














和 有 效能 力 位 。 











(8) lease。 进 程 可 以 通过 系统 调用 fentl 对 文人 




















别 的 进程 对 文件 进行 操作 时 


拥 
6.2.2 ”进程 



































CD kill。 进 程 可 以 通过 系统 调 





或 euid 等 








(2) setgid。 修 改进 程 凭 训 
(3) setuid HEFE FEU 
(4) setpcap。 修 改进 程 的 能 
可 继承 能 力 集 ; 缩小 
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被 清 零 ， 如果 进程 拥有 fsetid f 


有 lease 能 力 可 以 无 视 这 一 限 秆 


进程 被 视 为 fsuid 等 了 
ERE 
的 set-group- 
文件 的 set-user-id 和 set-group-id 要 被 

















文件 、 


p: 








id 有 关 。 











H 
文人 
操作 。 如 修改 文件 允许 位 、 文 人 











FIT] XE id 


通过 目录 。 


。 受 此 能 
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i. d 





























set-user-id 位 ， 
的 属 组 id 不 是 进程 的 fsgid 或 
FI] set-group-id 可 以 被 保留 。 


mutable。 修 改 文件 的 immutable 标志 。immutable 是 | 








能 力 ， 文 伯 









































总 是 要 被 





0 CH] 








于 一 个 补充 纪 








日 id 时 ， 文 伯 








LE 


可 执行 位 、 


影响 的 操作 一 般 
F 访 问 控制 列表 (ACL) 等 。 

个 场景 下 用 到 这 个 能 力 : 一 、 当 进 
JE fsetid 能 力 可 以 保留 文件 的 
为 euid 和 特权 相关 )。 二 、 当 进 





FI] set-group-id 









































c 
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W 














] kill 向 














力 集 。 拥 

















(5) sys_chroot。 改 变 进程 的 根 目录 。 


(6) sys ptrace. 





内 核对 跟踪 进程 有 两 个 限 
进程 的 (Yjuid、euid、suid， 跟 踪 进 程 的 (r)gid 同时 等 于 被 































































































个 进 


n 


限制 能 力 集 ;三 、 修 改进 程 任 





JE 








程 


发 送信 号。 























(7) setfcap。 设 置 文件 能 力 ， 就 是 设置 后 面 要 提 到 的 文件 的 允许 能 力 集 、 可 继承 能 力 集 、 


建立 读 lease 或 写 lease. lease 的 作 月 


|， 进 程 可 以 得 到 通知 。lease 操作 要 求 进 程 fsuid 和 文件 





k 体 文件 系统 实现 的 ， 
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届 主 相等 。 








内 核 要 求 发 送 进 
接收 进程 的 (r)uid 或 euid。 拥 有 kill 能 力 可 以 无 视 这 一 限制 。 
F 中 的 各 种 gido 
E 中 的 各 种 uid. 
有 setpcap 能 力 可 以 : 一 、 将 允许 能 力 集中 的 能 力 加 入 














证 中 六 个 和 能 力 相关 的 比特 。 








~ IRER H 
KEKÄE 






































fzfff)(r)uid 


程 的 uid 同时 等 于 被 跟踪 
程 的 (r)gid、egid、sgid。 二 、 跟 
EJ. JT] sys ptrace 能 力 无 视 这 两 个 















































踪 进 程 的 允许 能 力 集 是 被 跟踪 进程 的 允许 能 力 集 的 i 
限制 。 
总 的 原则 是 内 核 希 望 被 跟踪 者 的 权限 比 跟踪 者 的 权限 小 。|] 
个 uid 相同 ， 三 个 gid 相同 。 但 是 
拥有 跟踪 者 不 具备 的 访问 权限 ， 比 如 某 些 文件 被 跟踪 进 
(7) sys_nice。 内 核 限 甫 
拥有 此 能 力 还 可 以 修改 进程 的 调度 算法 ， 改 变 CPU affinity 等 。 

















I 进程 只 能 将 自己 的 nice 值 增加 。 拥 有 此 能 力 无 视 上 





a 


E Ti 95 — 4 RS I CER E DERE IS] — 
民 踩 者 和 被 跟踪 者 的 补充 组 id 不 尽 相 同 ， 也 会 导致 被 跟踪 者 





程 可 以 访问 ， 而 跟踪 进程 不 能 访问 。 


b. Jb, 
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6.2.3 ”网 络 


(1) net_bind_service。 可 以 绑 定 系统 特权 端口 〈 端 口号 小 于 1024)。 

(2) net broadcast。 此 能 力 未 被 使 用 。 

(3) net _ admin。 配置 网 络 参 数 ， 如 防火 墙 、 路 由 表 、TOS (type-of-service) 等 。 
(4) net raw。 使 用 RAW 型 socket。 
























































6.2.4 ipc 











(1) ipc lock。 此 能 力主 要 用 于 锁定 内 存 ， 即 阻止 进程 的 部 分 或 全 部 内 存 被 交换 到 人 硬盘 的 交 
换 分 区 。 内 核 中 每 个 进程 有 +tlimit 配额 限制 锁定 内 存 的 总 量 。 拥 有 此 能 力 可 以 不 受 此 限制 。 
(2) ipc_owner。 拥 有 此 能 力 的 进程 在 内 核 操作 许可 检查 中 被 视 为 euid 等 于 IPC 客体 的 
属 主 id。 
6.2.5 系统 


(1) block_suspend。 拥 有 此 能 力 可 以 实施 阻止 系统 挂 起 的 操作 。 

(2) syslog。 有 两 个 用 处 ， 一 个 是 系统 调用 syslog 的 有 些 参数 的 要 求 调 用 者 拥有 此 能 力 ， 
另 一 个 是 当 /proc/sys/kerneJVkptr restrict 文件 内 容 为 “1” 时 ， 拥 有 此 能 力 的 进程 可 以 查看 到 内 核 
通过 /proc 伪 文 件 系 统 暴 露 的 地 址 。 

(3) sys_admin。 这 个 能 力 就 是 一 个 缩小 的 “root”。 其 他 能 力 没有 覆盖 的 特权 都 属于 这 个 能 
力 。 包 括 挂 载 磁 盘 、 启 动 或 停止 swap、 设 置 命 名 空间 (namespace) …… 今 后 如 果 再 有 新 能 
多 半 是 从 此 能 力 中 分 离 出 来 的 。 

(4) sys_boot。 启 动 系统 。 

(5) sys_module。 加 载 内 核 模块 。 

(6) sys_pacct。 拥 有 此 能 力 的 进程 可 以 打开 或 关闭 系统 对 进程 进行 统计 的 功能 。 

C7) sys_resource。 此 能 力 覆 盖 功 能 也 比较 多 ， 涉 及 文件 系统 、IPC、 进 程 等 领域 。 包 括 i 
整 文件 系统 的 保留 空间 、 设 置 文件 系统 的 日 志 参 数 、 设 置 进程 内 存 布局 等 。 

(8) sys_time。 设 置 系统 时 间 和 硬件 时 间 。 

(9) sys tty_config。 调 用 系统 调用 vhangup 需要 此 能 力 。 

(10) wake alarm。 设置 系统 闹钟 。 


6.2.6 设备 
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(1) sys rawio. PEME IO 端口 和 读 伪 文件 /proc/kcore 需要 此 能 力 。 
(2) mknod。 创 建设 备 文 件 需要 此 能 


6.2.7 ”审计 


(1) audit write。 用 于 向 内 核 写 入 或 修改 审计 规则 。 
(2) audit control。 用 于 配置 内 核 审 计 子 系统 的 参数 。 


6.2.8 ”强制 访问 控制 (MAC) 


(1) mac override. iM LSM 部 分 要 介绍 Linux 的 MAC 机 制 ， 有 的 MAC 机 制 认 定 拥有 
28 
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第 6 章 能 力 Ccapabilities) 








mac override 能 力 的 进程 可 以 不 受 MAC 机 制 控制 。 


(2) mac admin。 类 似 mac override, J 





6.3 UNIX 的 特权 机 制 


UNIX 的 特权 机 


CD 判定 


传统 的 UNIX 中 ， 


特权 。 











(2) 系统 调用 


改变 进程 euid 的 系统 调用 都 会 影响 到 进 











ru 








AN 








加 可 以 从 三 个 方面 来 分 析 ; 








(3) 从 文件 处 获取 特权 














进程 调 



































用 execve 系统 调用 ， 如 果 参 数 # 
设置 ， 进 程 的 euid 被 设置 为 文件 的 属 主 id 























6.4 Linux 的 能 力 集合 和 能 力 机 制 


Linux 特权 机 制 在 进程 和 文件 ， 
1. 进程 的 能 
Linux 内 核 在 进 
(1) 有 效能 力 集 
有 效能 力 集 可 以 类 比 进 
判断 时 ， 判 断 的 就 是 有 

(2) 可 继承 能 力 集 























^ 
集合 


















































程 凭 证 





人 | 


















































月 .不 
ERAH 












































继承 的 本 意 是 指 父 














就 行 了 。 








AE 




















子 之 间 的 特性 和 资源 转让 ， 在 计 
但 这 里 的 继承 是 指 进程 在 执行 系统 调用 execve 之 前 和 执行 系统 调 
特性 被 保留 。 可 继承 能 力 集 就 是 跨越 execve 不 变 的 东西 。 
(3) 允许 能 力 集 
允许 能 力 集 


是 有 效能 力 集 的 
能 力 集 是 你 钱包 里 的 钱 。 你 去 买 东西 




















增加 了 若干 能 力 集 





DP 


否 具备 相应 的 能 


| 算 机 世界 中 应 是 父 进 程 和 子 进程 之 间 。 


日 于 配置 MAC 机 制 参 数 。 








进程 的 有 效用 户 id (euid) 为 0， 内 核 就 认为 该 进程 具备 (全 部 ) 


程 的 特权 : setuid、seteuid、setreuid、setresuid。 


外 定 的 执行 文件 的 属 主 id 是 0， 文件 set-user-id 位 被 
0。 这 被 视 为 进程 从 文件 处 获取 了 特权 。 








分 别 增加 了 若干 能 力 集合 。 下 面 分 别 介绍 。 











程 赁 证 中 的 有 效用 户 id (euid) 或 有 效 组 id (egid)。 内 核 在 做 特权 
效能 力 集 ! 


























a 























之 后 ， 部 分 进程 的 











j execve 














国 集 5。 打 个 比方 ， 人 允许 能 力 集 是 你 在 银行 里 存 的 钱 ， 有 效 















































可 能 因 钱包 里 钱 不 够 而 买 不 成 ， 没 关系 ， 上 银行 取 钱 再 买 


在 菜 些 情况 下 ， 允 许 能 力 集 还 限制 了 可 以 向 可 继承 能 力 集中 添加 的 能 力 。 这 在 后 面 系 统 调 





用 部 分 多 
(4) 








说 。 











限制 能 力 集 
1) 向 可 继承 能 力 集中 


























限制 能 力 集 (bounding set) 
有 两 个 作用 : 
P 添 加 的 能 力 必 须 来 
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2) 在 执行 系统 调用 execve 时 ， 进 程 从 文件 的 允许 能 力 集 获 得 的 能 力 必须 也 在 进程 的 限 秆 
能 力 集 中 。 这 个 在 后 面 细 说 。 

2. 文件 的 能 力 集合 

文件 也 有 能 力 集合 。 文 件 的 能 力 集合 存储 在 文件 的 扩展 属性 “security capability” 中 。 文 件 
的 能 力 集合 是 : 

e 允许 能 力 集 
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"uni 

















这 里 和 进程 不 同 ， 有 效能 力 位 只 是 一 个 比特 位 ， 值 为 1 或 0。 
6.4.2 ”能 力 机 制 


与 6.3 节 相 呼应 ， 下 面 还 是 从 “判定 >“ 系统 调用 ”“ 从 文件 获取 能 力 ” 三 方面 分 析 Linux 
的 能 力 机 制 。 

1. 判定 

Linux 内 核 在 做 特权 判断 时 ， 判 断 的 是 进程 凭证 中 的 有 效能 力 集中 是 否 具备 所 要 求 的 能 

2. 系统 调用 

能 力 机 制 为 Linux 内 核 引 入 了 两 个 新 的 系统 调用 : capget 和 capset， 扩 展 了 一 个 系统 调 月 
prctl。 




























































































cu 





(12 capset 
int capset(cap user header t hdrp, const cap user data t datap); 


cap user header t 和 cap user data t 的 实际 类 型 是 指针 。 先 看 cap user header t: 








typedef struct user cap header struct { 





, u32 version; 
int pid; 


) *cap user header t; 














上 面 所 列 结构 有 两 个 成 员 : version 和 pide HI pid 似乎 表示 可 以 修改 任意 一 个 进程 的 
能 力 。 这 有 些 可 怕 ， 想 想 看 ， 有 一 种 进程 可 以 动态 修改 别 的 进程 的 能 力 。 好 在 Linux 内 核 自 
2.6.24 后 修改 了 语义 ， 进 程 只 能 修改 自己 的 能 力 。 所 以 这 里 pid 的 取 值 只 能 是 0 或 者 当前 进 
FEHI pid. 

version 的 取 值 为 : 





















































1 
























































*define LINUX CAPABILITY VERSION 1 0x19980330 





*define LINUX CAPABILITY VERSION 2 0x20071026 /* deprecated - use v3 */ 
*define LINUX CAPABILITY VERSION 3 0x20080522 
































从 “0x19980330” 这 个 值 看 ，Linux 内 核能 力 机 制 的 开发 开始 得 相当 早 。 
Pi cap user data t: 











typedef struct user cap data struct { 
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能 力 Ccapabilities) 








-U32 effective; 


__u32 permitted; 
__u32 inheritable; 


} user *cap user data t; 


C 语言 的 参数 传递 不 区 分 指针 和 数组 。 这 中 

















实际 传递 的 是 一 个 包含 两 个 子 成 员 的 数组 ， 因 





为 当前 能 力 的 个 数 超过 了 32， 一 个 “__u32” 类 型 的 变量 只 能 表示 32 个 能 力 。 





























在 capset 系统 调用 





















































3) 新 的 允许 能 力 集 











有 四 条 规则 ， 必 须 同 时 满足 : 

1) 新 的 可 继承 能 力 集 必须 是 旧 的 可 继承 能 
下 ， 如 果 新 的 可 继承 能 力 集 是 | 
旧 的 可 继承 能 力 集 没 有 的 能 力 ， 那 么 这 部 分 能 力 必 须 是 旧 的 限制 能 力 集 的 子 集 。 

2) 在 进程 的 有 效能 力 集 包含 cap_setpcap 的 情况 
能 力 集 和 旧 的 允许 能 力 集 的 合集 的 子 集 。 换 名 话说 ， 若 有 新 增 ， 新 增 必 须 来 自 允 许 能 力 集 。 
必须 是 旧 的 允许 能 力 集 的 子 集 。 


日 的 可 继承 能 力 集 上 


























集 和 旧 的 限制 能 力 集 





9 合集 的 子 集 。 解 释 











6 子 集 ， 没 有 问题 。 如 果 新 的 可 继承 能 力 集 有 






































4) 新 的 有 效能 力 集 必须 是 新 的 允许 能 力 集 的 子 集 。 

















上 述 规则 决定 了 ， 












































力 集 的 子 集 。 但 是 ,可 继 
调用 参数 ， 在 减少 允许 外 
(2) capget 





通过 capset 不 可 能 增加 












































站 ， 新 的 可 继承 能 力 集 必须 是 旧 的 可 继承 














允许 能 力 集 ， 通 过 capset 有 效能 力 集 总 是 允许 能 
承 能 力 集 却 有 可 能 超出 允许 能 力 集 和 限制 能 力 集 ， 











因为 可 以 构造 capset 








E 力 集 或 限制 能 力 集 的 同时 ， 不 变 或 增加 可 继承 能 力 集 。 





int capget (cap user header t hdrp, cap user data t datap); 


capget 可 以 读 取 任意 进程 的 能 


(3) prctl 


不 知 读者 是 否 注意 到 ，capget 和 capset 不 涉及 限制 能 力 集 。 限 
过 系统 调用 prctl 来 实现 的 。 系 统 调 
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能 力 集 的 查看 和 修改 是 通 
































] prel 有 多 个 参数 ， 限 六 





BI Be 7) 4 H 


日 到 了 头 两 个 参数 ， 





int prctl(int option, unsigned long arg2, unsigned long arg3, unsigned long 


arg4, unsigned long arg5); 


限制 能 力 集 在 参数 option PP 


























(1) PR CAPSET READ 
arg2 表示 一 个 能 力 集 ， 整 数 (unsigned long) 的 每 一 个 比特 表示 一 个 能 力 ， 如 果 这 个 能 力 




















(2) PR CAPSET DROP 


将 arg2 代表 的 能 力 集 从 限制 




















展 了 两 个 值 : 











集 是 限制 能 力 集 的 子 集 ， 返 回 1; 否则 返回 0。 












































能 力 集中 去 掉 。 这 个 操作 要 求 进程 其 
还 好 ， 现 在 的 能 力 个 数 没有 达到 64， 否 则 就 不 止 要 用 到 prctl 的 头 两 个 参数 了 。 用 


有 cap_setpcap 能 力 。 











PR CAPSET READ 来 读 取 限 制 能 力 集 显 然 不 如 查阅 /proc/[pid]/status 方便 。 而 PR CAPSET | 
DROP 的 设计 又 指出 ， 进 程 的 限制 能 力 集 只 能 越 来 越 小 。 











3. 从 文件 获取 能 


























E] UNIX 基于 id 的 特权 机 制 一 样 ， 在 Linux 基于 能 力 集合 的 特权 机 制 中 ，Linux 进程 也 可 
以 通过 系统 调用 execve 从 被 执行 的 文件 处 获取 能 力 。 下 面 看 execve 前 后 能 力 的 变化 公式 : 
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P'(permitted) = (P(inheritable) & F(inheritable)) | (F(permitted) & P (cap bset) ) 
P'(effective) = F(effective) ? P'(permitted) : 0 

P'(inheritable) = P(inheritable) [i.e., unchanged] 

P'(cap bset) - P(cap bset) [i.e., unchanged] 











P 表示 进程 在 execve 前 的 能 力 集 ，P' 表 示 进 程 在 execve 后 的 能 力 集 , F 表示 文件 的 能 力 














集 。permitted 代表 允许 能 力 集 ，inheritable 代表 可 继承 
有 效能 力 位 。 








能 力 集 ，effective 代表 有 效能 力 集 或 











进程 在 execve 后 的 允许 能 力 集 有 两 个 来 源 ， 一 个 是 进程 的 可 继承 能 力 集 和 文件 的 可 继 
承 能 力 集 的 交集 , 另 一 个 是 文件 的 允许 能 力 集 和 进程 的 限制 能 力 集 的 交集 。 由 此 可 推导 出 进 





















































execve 后 的 有 效能 力 集 等 于 其 在 execve 后 的 允许 能 力 集 。 

















集 保持 不 变 。 


6.5 ”向 后 兼容 





程 的 允许 能 力 集 有 可 能 不 是 进程 的 限制 能 力 集 的 子 集 。 当 文件 的 有 效能 力 位 为 1， 进 程 在 


















































进程 的 可 继承 能 力 集 和 限制 能 力 




















Linux 内 核能 力 机 制 的 开发 者 希望 应 用 程序 能 够 平稳 地 从 基于 id 的 特权 机 制 过 渡 到 基于 

















能 力 的 特权 机 制 ， 为 此 Linux 内 核 提 供 了 能 力 机 制 到 id 机 制 的 兼容 ， 让 旧 有 的 应 用 在 新 的 
内 核 上 能 够 正常 运行 。 这 个 兼容 机 制 是 成 功 的 , 成 功 到 时 至 今日 , 使 用 能 力 机 制 的 应 用 仍然 














是 少数 。 



































下 面 还 是 从 “判定 ”““ 系 统 调用 ”“ 从 文件 获取 ”三 个 方面 来 分 析 这 个 兼容 机 制 。 


CD 判定 

















Linux 内 核 没 有 为 了 向 后 兼容 而 在 判定 中 添加 逻辑 , Linux. 内 核 判 断 进程 是 否 进行 特权 操作 
的 唯一 标准 就 是 相关 的 能 力 是 否 在 进程 的 有 效能 力 集中 。Linux 内 核 中 没有 任何 依据 用 户 id 进 


















































行 授权 的 逻辑 。 
(2) 系统 调用 
































为 了 做 到 向 后 兼容 , 内 核 在 涉及 用 户 id 变 化 的 系统 调用 




















setfsuid) 增加 了 调整 进程 的 能 力 集 的 逻辑 。 


























(setuid、seteuid、setreuid、setresuid、 











1) 如 果 系 统 调用 前 Cuid、euid、suid 中 有 一 个 或 多 个 为 0， 系统 调用 后 这 三 个 用 户 id 都 不 











是 0， 那 么 进程 的 允许 能 力 集 和 有 效能 力 集 被 清空 。 
2) 如 果 euid 从 0 变 为 非 0， 那 么 有 效能 力 集 被 清空 
3) WR euid 从 非 0 变 为 0， 那 么 将 允许 能 力 集 赋 值 





































































































给 有 效能 力 集 。 
4) 下 述 能 力 是 与 文件 相关 的 能 力 : cap chown, cap mknod cap dac override 、 
cap dac read search. cap fowner. cap fsetid. cap mac override. cap linux immutable. 。 如 果 





fsuid 从 0 变 为 非 0， 那 么 从 有 效能 力 集中 清除 与 文件 相关 的 能 力 。 反 之 ， 从 允许 能 力 集中 将 文 


























件 相关 的 能 力 赋 值 给 有 效能 力 集 。 
(3) 从 文件 获取 




















1) 进程 执行 execve 后 ， 如 果 (Duid 或 euid 为 0， 内核 认为 文件 的 允许 能 力 集 和 可 继承 能 








32 





第 6 章 能 力 Ccapabilities) 











5 
Xm 





有 全 部 的 能 力 。 这 样 ， 前 面 的 execve 前 后 能 力 变化 公式 就 变 为 : 








P' (permitted) = P(inheritable) | cap bset 






































当 进 程 的 限制 能 力 集 cap_bset 具有 全 部 能 力 时 ， 执 行 set-user-ID-root 文件 的 效果 就 是 进程 
的 有 效能 力 集中 包含 全 部 能 力 。 


2) 进程 执行 execve 后 ， 如 果 euid 为 0， 内核 认 为 文件 的 有 效能 力 位 为 1。 公式 变 为 : 













































































P'(effective) = P'(permitted) 











3) 进程 的 可 继承 能 力 集 和 限制 能 力 集 不 受 影响 ， 还 是 原来 的 公式 : 











P'(inheritable) = P(inheritable) [i.e., unchanged] 








P'(cap bset) - P(cap bset) [i.e., unchanged] 


6.6 ”打破 向 后 兼容 


有 了 向 后 兼容 ， 应 用 既 可 以 通过 设置 用 户 id 来 调整 能 力 ， 又 可 以 直接 设置 能 力 。 内 核能 力 
机 制 的 设计 者 希望 能 帮助 应 用 切换 到 纯粹 使 用 能 力 的 轨道 上 。 为 此 内 核 在 进程 凭证 中 增加 了 三 
个 比特 位 。 

(1) SECBIT KEEP CAPS 

如 果 这 个 比特 位 被 置 位 ， 那 么 6.5 节 讲 到 的 系统 调用 的 第 一 条 规则 不 起 作用 。 效 果 就 是 ， 
如 果 系 统 调 用 前 (Duid、euid、suid 中 有 一 个 或 多 个 为 0， 系 统 调用 后 这 三 个 用 户 id 都 不 是 0， 
那么 进程 的 允许 能 力 集 和 有 效能 力 集 不 变 。 

(2) SECBIT NO SETUID FIXUP 

如 果 这 个 比特 位 被 置 位 ， 那 么 6.5 节 讲 到 的 系统 调用 的 第 二 、 三 、 四 条 规则 不 起 作用 。 效 
果 就 是 ， 进 程 的 euid 和 fsuid 的 改变 不 会 引发 进程 有 效能 力 集 变 化 。 

(3) SECBIT NOROOT 

如 果 这 个 比特 位 被 置 位 ， 那 么 6.5 节 讲 到 的 “从 文件 获取 ”部 分 的 两 条 规则 不 起 作用 。 效 
果 就 是 ， 进 程 execve 一 个 set-user-ID-root 文件 95， 或 一 个 (Duid 为 0 的 进程 执行 execve， 内 核 都 
不 会 暂时 调整 文件 的 能 力 集 或 能 力 位 。 

上 述 三 个 比特 位 各 自 “ 破 坏 ” 了 一 部 分 向 后 兼容 ， 合 在 一 起 使 用 就 可 以 营造 出 一 个 纯粹 的 
只 使 用 能 力 机 制 的 环境 。 内 核能 力 机 制 的 设计 者 还 为 这 三 个 比特 位 分 别 对 应 了 三 个 “ 锁 ” 比 特 
位 : SECBIT KEEP CAPS LOCKED 、SECBIT NO SETUID FIXUP LOCKED 、SECBIT 
NOROOT LOCKED， 锁 比特 若 被 置 位 ， 相 应 的 比特 位 就 不 能 被 修改 了 。 设 置 和 查看 这 六 个 比 
特 位 的 方式 是 通过 系统 调用 prctt。 这 里 也 是 只 使 用 prctl 的 两 个 参数 ， 第 一 个 参数 是 option， 相 
关 的 值 有 四 个 : 

1) PR GET KEEPCAPS 

返回 SECBIT KEEP CAPS 的 状态 ，1 为 置 位 ，0 为 清 位 。 


































































































































































































































































































































































































O 属 主 为 0 (root)， 并 且 set-user-id 位 为 1 的 文件 称 为 set-user-ID-root 文件 。 
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Linux 内 核 安全 模块 深入 剖析 





2) PR_SET KEEPCAPS 
arg2 为 1 置 SECBIT KEEP CAPS 位 ， 为 0 清 SECBIT KEEP CAPS 位 。 
3) PR GET SECUREBITS 
通过 返回 值 获取 全 部 六 个 比特 位 状态 。 
4) PR SET SECUREBITS 
通过 arg2 设置 除 SECBIT KEEP. CAPS 外 五 个 比特 位 的 值 。 

PR GET KEEPCAPS 和 PR SET KEEPCAPS 在 Linux 22.18 就 进入 内 核 了 。 
PR GET SECUREBITS 和 PR_SET_SECUREBITS 则 直到 Linux 2.6.26 THA WIZ. EAEE 
初 的 设计 中 ， 内 核能 力 机 制 的 设计 者 没有 想到 总 共 会 引入 六 个 比特 位 。 最 初 的 名 字 KEEPCAPS 
语义 上 不 好 扩展 ， 就 增加 了 SECUREBITS，SECUREBITS 的 语义 完全 可 以 履 盖 全 部 六 个 比特 位 ， 
但 是 为 了 照顾 历史 遗产 , 并 未 这 么 做 。 结 果 就 造成 了 现在 这 个 奇怪 的 逻辑 .SET 操作 ,KEEPCAPS 
管 一 个 比特 位 ，SECUREBITS 管 其 余 五 个 比特 位 ，GET 操作 ，KEEPCAPS 管 一 个 比特 位 ， 
SEUREBITS 管 全 部 六 个 比特 位 。 







































































































































































Linux 内 核 的 能 力 机 制 是 为 了 解决 传统 的 UNIX. 内 核 的 特权 判定 过 于 简单 而 产生 的 。Linux 
内 核 的 能 力 机 制 将 传统 的 特权 进行 了 分 割 ， 使 得 最 小 特权 原则 有 可 能 实现 。 这 是 一 个 进步 。 但 
是 ， 由 于 能 力 机 制 的 复杂 和 能 力 机 制 与 原 有 基于 用 户 标 识 机 制 的 不 兼容 ， 能 力 机 制 没 有 被 广泛 
使 用 。 而 且 由 于 能 力 机 制 的 后 向 兼容 可 以 做 到 让 旧 有 的 应 用 不 需 修 改 即 可 使 用 ， 广 大 的 应 用 开 
发 者 甚至 根本 不 知道 Linux 内 核能 力 机 制 的 存在 。 
























































































































































0.8 参考 资料 








在 Linux shell 中 运行 “man capabilities", 可 以 读 到 关于 Linux 能 力 机 制 的 说 明 。 





vl 


题 


1. 试 试 通过 /proc/[pid]/status 文件 查看 进程 的 四 个 能 力 集 。 提 示 ， 需 要 参考 Linux 内 核 源 代 
13 ff] include/uapi/linux/capability.h 才能 得 到 文件 中 能 力 集 部 分 内 容 的 确切 含义 。 

2. 文件 的 能 力 集 数据 存储 在 文件 的 扩展 属性 中 ， 能 力 集 数据 对 应 的 扩展 属性 的 属性 名 为 
“security.capability”。 编写 一 个 程序 读 写 文件 的 能 力 集 。 写 文件 的 能 力 集 需要 特权 吗 ? 什么 
特权 ? 
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LSM 





关 的 函数 。 这 些 安全 函数 在 系统 调 


进行 强制 访问 控制 





A — 


第 二 部 分 


Linux Security Module， 字 面 意 上 


强制 访问 控制 


























的 执行 路 径 





因为 Linux 安全 模块 ,在 内 核 
P 会 被 调用 , 所 以 LSM 的 





体现 为 一 组 安全 相 
的 是 对 用 户 态 进程 




















。 至 于 这 些 安全 





函数 要 实施 什么 样 的 访问 控制 ， 这 是 
































1 安全 模块 决定 的 。 截止 


到 2014 F, Linux 内 核 主线 上 有 5 个 安全 模块 : SELinux、SMACK、Tomoyo、AppArmor 和 Yama. 
用 户 可 以 选择 哪些 安全 模块 被 编译 入 内 核 。 可 以 同时 有 多 个 安全 模块 存在 于 内 核 中 ， 但 是 在 运 
行 时 只 能 有 一 个 安全 模块 处 在 工作 状态 。 


rd 


T 
能 再 以 模块 










































































然 还 叫 模块 ， 但 是 自 2.6.xS 之 后 ，Linux 就 强制 LSM 各 个 模块 必须 被 编译 在 内 核 中 ， 不 
的 形式 存在 了 。 这 意味 着 在 运行 时 ， 不 能 





随意 加 载 一 个 所 谓 的 安全 模块 作为 访问 


控制 机 制 了 ， 也 不 能 随意 卸载 一 个 安全 模块 了 。Tomoyo 自己 还 保留 了 一 个 没有 进 主线 的 发 布 ， 




















ÆJ 





BARTHE, Tomoy 








o 可 以 以 模块 形式 存在 。 


























在 当前 的 5 个 安全 模块 中 ，SELinux 进入 内 核 最 早 ， 事 实 上 LSM 机 制 是 伴随 着 SELinux 


而 进入 内 核 的 。SELinux 是 5 个 安全 模块 中 功 
SMACK，SMACK 标榜 的 





ELA 


7E [B] 


单 ， 














Tomoyo 的 长 处 是 
发 得 很 早 ， 但 

















发 时 断 时 续 ， 结 


5 








用 性 ， 相 关 管 理工 具 和 


台 5 ELA. 


能 最 全 最 复杂 的 一 个 。 
它 在 安全 功能 上 和 安全 机 制 上 没有 突破 。 
文档 都 很 完备 。 


AA — 











AA AER 









































的 长 处 是 很 容易 对 单个 应 用 进行 安全 加 


























的 有 趣 之 处 是 它 只 针对 某 一 个 安全 问题 点 〈ptrace) 做 工作 ， 














SELinux 之 
性 全 功 

















后 的 模块 在 系统 性 安全 上 没有 突破 ， 只 在 简单 性 和 易 
能 安全 防护 向 单个 应 用 安全 和 单一 功能 防护 上 发 























i3 








第 三 个 
第 四 个 是 AppArmor, AppArmor F 
果 很 晚 才 进入 内 核 主线 。AppArmor 也 在 易 用 性 上 下 工夫 ， 它 
晶 不 影响 到 系统 其 他 部 分 。 最 后 一 个 是 Yama, Yama 





第 二 个 进入 内 核 主线 的 是 


是 Tomoyo， 

















余 不 管 。 回 


] 性 


















































展 的 趋势 。 


顾 历 史 可 以 看 到 ， 
上 下 功夫 ， 而 且 有 从 系统 





SELinux 的 开发 引入 了 LSM。 在 2001 Æ, Linus Torvalds 拒绝 了 SELinux 直接 进入 内 核 主 


线 。Linus Torvalds 要 


发 者 实现 了 LSM 
一 个 是 用 户 或 管理 


Hr 





机 制 。LSM 机 制 














E 员 可 以 在 内 核 编 








到 2012 年 时 


行 时 互 斥 的 。 如 果 系 统 ， 





求 把 SELinux 做 成 一 个 相对 独立 的 模块 。 于 是 Linux 内 核 安全 子 领域 的 




















带 来 了 两 个 可 能 ， 一 个 是 内 核 代码 中 多 个 安全 模块 





译 和 系统 启动 时 选择 安全 模块 。 








ff. H 








, Linux 主线 上 已 经 有 5 个 安全 模块 了 。 但 是 除了 Yama， 各 个 安全 模块 是 运 























SELinux 在 工作 ，SMACK 就 一 定 不 能 工作 。 这 时 就 有 人 想 ， 能 不 能 


让 安全 模块 可 以 同时 工作 呢 ?SMACK 的 负责 人 Casey Schaufler 承担 了 这 项 工作 。 两 年 过 去 了 ， 


虽然 Casey Schaufler 提交 了 多 个 patch, 1 





P mA 


女 























1 终 因 


以 下 不 展开 对 LSM 架构 的 分 析 ， 有 兴趣 的 读者 可 以 参阅 附录 。 








O Yama 特殊 ， 它 可 以 和 别 的 安全 模块 
O 确切 历史 已 经 很 难 追 溯 ， 作 者 只 能 确 仙 





法 确定 。 








* 存 ， 同 时 起 作用 。 
































AE 


全 模块 的 差异 性 和 系统 的 复杂 性 而 没有 成 功 。 





2.6.12 之 后 ，LSM 模块 就 必须 被 编译 进 内 核 。 至 于 之 前 何 时 发 4 











E 的 变化 ， 作 者 无 
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711 历史 


在 Linux 内 核 安全 领域 ，SELinux 可 谓 易 易 大 名 。 


第 7 全 SELinux 











几乎 所 有 接触 过 Linux. 安全 和 试图 接触 





Linux 安全 的 人 都 或 多 或 少 了 解 过 SELinux。 了 人 解 的 结果 是 大 部 分 人 对 SELinux 望而却步 ,小 部 


分 人 略 知 一 二 后 对 SELinux 敬而远之 。 作 者 怀疑 是 











WERE 


SELinux 的 全 称 是 Security Enhanced Linux, H 





局 (National Security Agency 























NSA) 主导 了 SELinux 的 开发 工作 。 











SELinux 的 历史 可 以 追溯 到 NSA 的 三 次 开发 安全 操作 系统 的 努力 。 第 
1993 年 间 ，NSA 与 安全 计算 公司 (Secure Computing Corporation 一 一 SCC) 合作 开发 了 以 Mach 





操作 系统 为 载体 的 DTMach， 





























T8 AXE T fif SELinux 之 后 还 会 对 SELinux 








P 文 直译 为 安全 增强 的 Linux。 美 国 国家 安全 











一 次 是 在 1992 年 到 





那 时 的 DTMach 就 已 经 实现 了 类 型 增强 (Type Enforcement — TE), 


后 来 类 型 增强 成 为 SELinux 最 主要 的 访问 控制 机 制 。 第 二 次 是 NSA 和 SCC 在 DTMach 基 





础 上 开发 的 DTOS (Distributed Trusted Operating System)。 第 三 





学 合作 的 Flux 项 目 ， 
项 目 最 大 的 成 果 是 实现 了 一 个 能 文 持 动态 管理 的 安全 策略 架构 




















将 DTOS 安全 架构 移植 到 一 个 名 为 Fluke WEM 














次 是 NSA、SCC 和 犹他 大 


操作 系统 上 ，Flux 


Flask (Flux Advanced 


Security Kerne) 2。 随 后 Flask 衍生 出 众多 后 代 ， 包括 Linux 之 上 的 SELinux, OpenSolaris 
上 的 FMAC、BSD 上 的 TrustedBSD、Darwin 上 的 SEDarwin、Xen 上 的 XSM (Xen Security 


Modules )， 以 及 在 用 户 态 应 用 领 





Extension) ^. 











在 科研 领域 取得 突破 后 ，NSA 进而 希望 安全 操作 系统 








页 域 的 SEPostgreSQL. SE-DBUS. XACE (X Access Control 




















E 够 被 广大 用 户 接 受 并 使 用 。 因 此 以 








Linux 为 载体 的 SELinux 就 诞生 了 。SELinux 的 第 一 个 开放 源 代码 版 本 以 内 核 补丁 的 方式 发 











7.1.2 工作 原理 


布 于 2000 年 12 月 22 日 。 随 后 ，NSA 进行 了 近 三 年 不 | 
使 SELinux 并 入 Linux 2.6.0-test3 主线 。 





























解 的 努力 ， 终 于 在 2003 年 8 月 8 日 








也 许 是 因为 开发 工作 开始 得 比较 早 而 让 SELinux 背负 了 历史 包容 ， 也 许 是 因为 SELinux 的 
设计 者 想 要 面面俱到 ，SELinux 的 安全 机 制 不 止 一 种 。SELinux 的 安全 机 和 
访问 控制 (Role Based Access Control，RBAC)、 类 型 增强 (Type Enforcement, TE) 和 多 级 安 














上 包含 : 基于 角色 的 














[e http://www.cs.utah.edu/flux/flask/ 
© https://www.nsa.gov/research/selinux/index.shtml 
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全 (Multi Level Security, MLS)» 
1. 基于 角色 的 访问 控制 






































f& 〈Role)。 举 个 例子 ， 一 个 公司 有 研发 人 员 、 市 场 人 员 、 保 安 、 





首先 要 明白 什么 是 角 
等 ， 这 些 分 工 就 是 角色 。 不 同 的 角色 可 以 做 不 同 的 寻 





ES, Bep] VEU, Dent 
































接触 研发 文档 ， 会 计 可 以 查看 财务 报表 。 所 谓 基于 角色 的 访问 控 


同 的 角色 有 不 同 的 操作 许可 。 基 于 角色 的 访问 控制 的 
分 工 不 同 的 人 。 在 遥远 的 大 型 机 时 代 ， 许 多 人 登录 到 


+ 企业 中 ， 每 个 员工 的 计算 机 都 联 入 企业 









































计算 


同一 台 





























制 就 是 将 月 


应 用 背景 是 一 个 大 型 组 织 ， 


日 户 映 射 到 角 


会 计 
发 人 员 可 以 
色 , 不 
有 织 里 有 很 多 
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£ 











机 ， 每 个 人 有 





者 在 一 个 大 型 
在 上 述 两 种 场景 下 ， 基 于 角色 的 访问 控 


2 
H 








己 的 账号 。 或 














内 部 网 ， 访 问 企业 内 部 不 同 的 数据 库 ， 也 




















个 个 人 电脑 中 ， 





出 很 容易 实行 。 但 是 在 和 

















是 如 此 的 场景 。 
或 者 在 智能 手机 中 ， 基 于 角色 的 访问 控制 就 有 些 勉强 了 。 

其 实 除 了 基于 角色 的 访问 控制 ，SELinux 还 有 一 个 基于 月 
Access Control ——U 
Linux 用 户 和 SELinux 角色 的 中 介 。 
] 户 ， 然 后 再 将 SELinux 用 户 映 射 为 SELinux ff 
为 不 是 ，SELinux 用 户 和 SELinux 角色 可 以 合并 在 一 起 。 

2. 类 型 增强 

上 月 人 类 社会 的 分 






























































J XRK, SELinux 先 




























































































AN [来 类 比 SELinux 中 的 角 

















山羊 的 天 性 是 吃 背 攻 ， 躲 避 老 虎 。 这 是 自然 法 贝 
性 也 会 发 生变 化 ， 例 如 熊猫 就 从 肉食 动物 变 成 了 植 食 动物 。 

在 SELinux 的 类 型 增强 机 制 下 ， 进 程 和 文 伯 
进程 B 是 网 络 服务 类 型 ， 文 件 a 是 本 地 管理 类 型 















































BAC)。SELinux 提供 了 一 个 SELinux 用 户 的 概念 ， 


色 。 这 一 节 
中 的 类 型 。 生 物 分 属 不 同 的 物种 ， 不 同 的 物种 有 不 同 的 特征 。 老 虎 的 天 性 是 
j。 但 是 ， 在 生物 的 进化 过 程 中 ， 有 些 4 























将 Linux 


用 生物 的 物种 











日 户 的 访问 控制 CUser Based 
SELinux 
JP RYT SELinux 
f&. SELinux 用 户 是 不 是 必须 的 呢 ? 作者 认 














j 户 作为 











来 类 比 SELinux 
WE. 不 吃 首 


笨 ; 


E 物 的 天 























F 都 有 一 个 类 型 。 比 如 进程 A 是 本 
系统 管 


服务 类 型 。 














类 型 ， 文 件 b 是 网 络 
略 规定 未 地 管理 类 型 的 进程 可 以 读 网 络 服务 类 型 的 文人 
件 a 和 文件 b， 进 程 B 只 能 读 文件 b。 
3. 多 级 安全 
多 级 安全 ， 
模型 。BLP 中 的 B 指 的 是 Bell, LP 指 的 是 Lapadulae。20 1 
两 人 受命 参考 美国 军 方 的 保密 人 






































F， 而 反 过 来 不 行 。 


症 度 ， 在 计算 机 上 创建 一 个 安全 的 信息 处 型 
后 ， 二 人 创建 了 经 典 的 BLP 模型 。BLP 模型 大 致 是 这 样 的 : 进程 和 文 伯 





地 管 理 类 型 , 


ERBER 
































于 是 进程 A 可 以 读 文 


英文 是 Multi-level Security, 简称 MLS。 多 级 安全 来 源 于 BLP (Bell-Lapadula) 
此 纪 70 年 代 初 ，Bell 和 Lapadula 

















ERA. AFE 





























有 两 项 ， 一 项 是 敏感 度 ， 另 一 项 是 组 别 。BLP 模型 下 进程 对 文 伯 
BLP 模型 规定 : 





F 都 有 安全 标签 。 标 签 

















(1) 低 敏 感度 进程 不 能 读 高 敏感 度 文件 ， 高 敏感 度 进程 不 能 
(20 当 进 程 的 组 别 包含 或 等 于 文件 的 组 别 时 ， 进 程 可 以 操作 
BLP 模型 的 目的 是 防止 信息 泄漏 。 

级 读 了 上 级 的 文件 ,“ 下 写 ” 是 上 级 写 了 下 级 的 文 伯 

按 组 区 分 进程 和 文件 ， 进 程 不 能 接触 组 外 的 文件 。 
SELinux 的 MLS 机 制 基 于 两 个 因 



































以 一 个 整数 表示 ， 组 别 以 一 个 整数 的 集合 表示 。 敏 感度 之 间 的 关系 是 小 于 、 等 了 





© http://en.wikipedia.org/wiki/Bell-LaPadula_ model 


F 的 操作 方式 有 





写 低 敏感 度 文 
文件 。 








第 一 条 规定 可 概括 为 “ 禁 上 读 ， 禁 下 写 "“ 上 读 ” 是 下 
+， 有 可 能 把 秘密 泄漏 给 下 级 。 第 二 条 规则 是 


素 : MURE (sensitivities) 和 组 别 〈categories)。 敏 感度 











F. KF. 201 
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之 间 的 关系 是 包含 、 被 包含 、 相 等 、 不 相关 。 








LI 

















两 种 关系 又 


LER 
`J 








x 





Li 
Lr 




















种 新 关系 ， 新 关系 有 4 


个 值 : 支配 (Dominate)、 被 支配 〈DominatedBy)、 相 等 〈equal)、 不 相关 Cincompatible), Jl 



























































表 7-1。 
表 7-1 SELinux 多 级 安全 
小 于 等 于 XT 
包含 不 相关 文 配 文 配 
被 包含 被 文 配 被 文 配 不 相关 
相等 被 文 配 相等 xie 
不 相关 不 相关 不 相关 不 相关 
表 7-1 的 含义 是 用 进程 的 敏感 度 和 组 别 与 文件 的 敏感 度 和 组 别 相 比较 3， 导出 新 的 关系 。 
第 一 行 : 当 进 程 的 组 别 包 含 文件 的 组 别 时 ， 如 果 进 程 的 敏感 度 大 于 或 等 于 文件 的 敏感 度 ， 

















进程 支配 文件 ; h 


E 


进程 被 文件 支配 ; 




















FH 






































被 文件 文 配 ;， 如 果 进 程 
文件 的 敏感 度 ， 进 程 文本 
第 四 行 : 当 进 
































EX Fo 
























































1 果 进 程 的 敏感 度 小 于 文 们 
fr: 当 进 程 的 组 别 被 文件 的 组 别 


第 三 行 ， 当 进程 的 组 别 和 文件 的 组 员 
的 敏感 度 等 于 文 但 


程 的 组 别 和 文件 的 组 另 



























































F 的 敏感 度 ， 进 











F 的 敏感 度 ， 进 程 和 文件 不 相关 。 
包含 时 , 如 果 进 程 的 敏感 度 小 于 或 等 于 文件 的 敏感 度 ， 
进程 的 敏感 度 大 于 文件 的 敏感 度 ， 进 程 也 
上 相同 时 ， 如 果 进 程 的 敏感 度 小 于 文件 的 敏感 度 ， 进 程 








0 文件 不 相关 。 
































程 和 文件 相等 ; 


如 果 进 

















































































































程 的 敏感 度 大 于 


I 不 相关 时 ， 无 论 进程 的 敏感 度 和 文件 的 敏感 度 关系 如 

































































何 ， 进 程 和 文件 都 不 相关 。 
K 7-1 的 逻辑 是 由 SELinux 代码 实现 的 ， 是 固定 的 ， 不 能 由 用 户 配置 的 策略 调整 。 用 户 
可 以 通过 配置 策略 在 表 7-1 所 导出 的 新 关系 的 基础 上 定义 操作 许可 ， 配 置 出 安全 模型 。 比 如 
BLP 模型 ， 见 表 7-2. 
表 7-2 ”BLP 模型 
读 写 
支配 "4 x 
相等 Y Y 
被 支配 x v 
不 相关 x x 
进程 可 以 读 它 所 支配 的 文件 ， 可 以 写 支 配 它 的 文件 ， 对 于 处 于 相等 关系 的 文件 可 读 可 写 。 








下 面 看 一 个 BLP 模型 的 例子 。 在 某 个 应 用 场景 下 有 两 个 敏感 
。 进 程 A 的 敏感 度 是 普通 ， 部 门 是 








ws 


A. Mr. TS 














f 























Hr. 
X: 






































发 和 财务 ; XE 




















FE C 的 敏感 度 是 秘密 ， 部 门 


EH 


























销售 。 文 件 a 的 敏感 度 是 和 




















普通 和 秘密 , 有 三 个 部 门 : 

















A. 进程 B 的 敏感 度 是 秘密 ， 部 门 是 下 
密 ， 部 门 是 研发 和 财务 。 
































AE 
先导 出 支配 关系 ， 进 程 A 被 文件 a 支配， 进程 B 相等 于 文件 a， 进 程 C 与 文件 a 不 相关 。 再 看 
BLP 模型 ， 进 程 A 可 以 写 文 件 a， 进 程 B 可 以 读 写 文件 a， 进 程 C 对 文件 a 不 可 读 也 不 可 写 。 
如 图 7-1 Br. 








O 确切 地 说 是 主体 和 客体 之 间 的 比较 ， 
36 





这 里 做 了 简化 。 
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研发 财务 销售 





L 
| 
| 
1 
| 
| 
| 
1 
| 


图 7-1 BLP 模型 举例 





多 级 安全 又 衍生 出 多 组 安全 一 -MCS (Multi-category Security)。 当 敏感 度 总 是 一 个 值 时， 
起 作用 的 就 只 有 组 别 了 ， 这 时 就 是 MCS。 实 践 中 ，MCS 用 于 隔离 ， 配 置 策略 阻 断 不 同 组 之 间 
的 信息 流动 。 比 如 用 SELinux 保护 虚拟 机 实例 是 这 样 工作 的 ， 每 次 启动 一 个 新 的 虚拟 机 ， 虚 拟 
机 控制 器 就 从 1024 个 组 别 中 选择 2 个 组 别 分 配给 新 的 虚拟 机 实例 。 配 套 的 策略 是 只 在 多 级 安 
全 的 关系 为 相等 的 情况 下 ，SELinux 才 人 允许 进程 操作 文件 。 


7.1.3 SELinux 眼中 的 世界 


UNIX 的 世界 是 基于 用 户 标 识 的 ， 进 程 代 表 用 户 执行 任务 ， 文 件 从 属于 用 户 。 当 进程 访问 
文件 时 ， 背 后 的 逻辑 是 进程 代表 用 户 A 访问 用 户 B 的 文件 。 所 以 访问 控制 是 “允许 用 户 A 对 
HP B 进行 什么 样 的 操作 ”。 

SELinux 虽然 有 基于 角色 的 访问 控制 和 多 级 安全 ， 但 在 实际 的 访问 控制 中 起 作用 的 是 类 型 
增强 。SELinux 的 世界 是 基于 类 型 的 ,进程 属于 不 同 的 类 型 ， 比 如 fip 服务 类 型 、http 服务 类 型 、 
本 机 管理 类 型 。 文 件 也 属于 不 同 的 类 型 ， 比 如 ftp 服务 类 型 、http 服务 类 型 、 本 机 管理 类 型 。 管 
理 员 制定 策略 规定 ， 比 如 ftp 服务 类 型 的 进程 可 以 读 写 ftp 服务 类 型 的 文件 ， 对 其 他 类 型 文件 没 
有 任何 操作 许可 。 这 样 ， 即 使 fp 守护 进程 和 http 守护 进程 都 以 root 身份 运行 ,即使 ftp 的 配置 
文件 和 http 的 配置 文件 都 属于 root 用 户 ， 也 能 保证 ftp 守护 进程 只 能 操作 ftp 相关 的 文件 ，http 
守护 进程 具 能 操作 http 相关 的 文件 。 


7.2 机 制 











































































































































































































































































































7.2.1 安全 上 下 文 


访问 的 三 要 素 是 主体 、 操 作 、 客 体 。 访 问 控 制 首先 要 做 的 事 是 标记 主体 和 客体 。 
主体 就 是 进程 ， 进 程 的 安全 上 下 文 被 记录 在 内 核 中 进程 的 task. struct 之 中 。 有 具体 来 说 ， 就 
是 进程 的 task_struct 有 一 个 成 员 叫 cred，cred 中 有 一 个 指针 成 员 叫 security, security 是 一 个 


“void *” JEFF, SELinux 会 申请 内 存 ， 将 安全 上 下 文 相 关 的 数据 记录 在 这 里 。 

































































include/linux/sched.h 


struct task struct { 


/* process credentials */ 
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const struct cred rcu *real cred; /* objective and real subjective task 


const struct cred rcu * 


} 
include/linux/cred.h 


struct cred { 





#ifdef CONFIG SECURITY 
void 
#endif 


} 


*security; 


* credentials (COW) */ 
/* effectiv 


* credentials 





cred; 


(COW) */ 


/* subjective LSM security */ 


(overridable) subjective task 














客体 有 很 多 种 ， 最 常用 的 是 文件 。 


来 说 ， 就 是 存储 在 文件 的 名 为 “security.selinux” 的 扩展 








文件 的 安全 上 下 文 的 基本 来 源 是 文件 的 扩展 属性 。 








属性 之 中 。 

















Wt 








SELinux 中 对 主体 和 客体 的 标记 称 作 安全 上 下 文 CSecurity Contexts)， 也 称 为 安全 标签 ， 或 


干脆 简称 标签 。SELinux 的 安全 上 下 文 的 构成 是 一 个 四 元 组 ， 包 含 : 
MLS. MLS 包含 敏感 度 和 组 别 ， 有 时 敏感 度 和 组 别 分 3 


下 文 为 五 元 组 。 





尽管 SELinux 的 工作 机 制 中 包括 基于 角色 的 访问 控制 ， 但 是 在 SELinux 代码 中 ， 






































角色 的 作用 
































不 去 争论 这 种 设计 是 否 必 要 , 是 否 可 以 
用 场景 多 半 来 自 遥 远 的 大 型 机 时 代 。 





多 级 安全 的 作用 是 在 访问 控制 中 为 类 型 : 




















只 是 映射 为 类 型 ， 实 际 的 访问 控制 是 基于 类 型 的 ， 如 图 7-2 所 示 。 


SELinux 用 户 


Kl7-2 SELinux 


这 一 系列 的 转换 是 在 用 户 登 录 (login) 或 者 


SELinux 角色 


色 的 作用 


SELinux 类 型 
























































省 略 中 间 环 节 一 一 SELinux 























] 户 改变 身份 (shell 命令 su) 时 完成 的 。 和 暂且 
J&J SElinux 角色 , 这 种 使 


SELinux User、 Role、 Type、 
下 各 算 一 元 ， 所 以 也 称 SELinux 的 安全 上 


SELinux 








增强 定义 额外 的 限制 ， 它 不 能 单独 工作 。 如 果 类 型 


增强 相关 的 策略 允许 主体 对 客体 的 访问 ， 那 么 在 多 级 安全 生效 的 情况 下 ，SELinux 代码 会 判断 
多 级 安全 相关 的 策略 有 没有 限制 此 次 主体 对 客体 的 访问 ， 如 果 没 有 ， 那 么 允许 访问 。 























三 个 安全 机 制 中 真正 能 独立 起 作用 的 是 类 型 增强 ， 四 元 组 中 最 重要 的 是 类 型 。 


制 包含 两 个 方面 : 



































(1) 类 型 A 的 主体 可 以 对 类 型 B 的 客体 进行 哪些 操作 。 
(2) 主体 或 客体 的 类 型 在 什么 情况 下 可 以 发 生变 化 ， 可 以 变 为 什么 值 。 





7.2.2 ”客体 类 别 和 操作 
不 同 的 客体 类 别 有 

















不 同 的 操作 。 回 顾 一 下 自主 访问 探 人 














进程 间 通 信 上 的 操作 是 读 和 写 ， 密 钥 | 


F: 的 操作 是 读 、 写 、 搜 索 、 链 接 、 查 看 属 怕 











E 和 设置 














类 型 增强 机 


庆 ， 文 件 上 的 操作 是 读 、 写 和 执行 ， 
属性 。 





E 





为 了 和 SELinux 类 型 增强 机 制 中 的 类 型 相 区 别 ， 本 节 用 “客体 类 别 ” 这 个 词汇 来 指 代 不 同 的 
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客体 种 类 ， 如 文件 、 


T p 














F o 








进程 间 通 信 、 密 钥 等 。 








总 的 来 说 ， 自 主 访问 控制 中 的 操作 类 型 不 多 ， 易 





SELinux 设计 的 操作 极为 复杂 。 首 先 ，SELinux 设计 了 比 自主 访问 控制 多 得 多 的 客体 类 别 ; 


其 次 ，SELinux 在 每 个 客体 类 别 I 
做 的 本 意 是 因 
Wa 
本 节 所 列举 的 客体 类 别 和 
， 作 者 发 现 access 


犹 不 及 


读 代码 后 























FE 一 般 又 定义 了 几 十 种 此 客体 类 别 专 有 的 操作 。SELinux 3X4 
为 传统 UNIX 在 操作 类 型 的 设计 上 过 于 简单 ， 无 法 区 分 细微 的 语义 差别 。 但 是 过 
日 密 的 操作 分 类 实在 是 让 人 难以 掌握 。 

客体 类 别 上 的 操作 来 自 SELinux 策略 文件 “access_vectors”。 在 阅 
vectors 中 的 内 容 和 内 核 SELinux 代码 并 不 完全 符合 。 文 件 
































access vectors 中 多 了 一 些 没有 用 到 的 定义 ， 而 且 作 者 判断 这 些 多 余 的 定义 未 来 也 不 会 用 到 。 这 


是 SELinux 复杂 的 另 一 个 来 源 

















不 合乎 逻辑 的 、 元 余 的 、 无 用 的 定义 ! 











下 面 逐一 列举 SELinux 在 不 同 客体 类 别 上 的 操作 。 


1. 


进程 























简单 地 说 ， 进 程 就 是 程序 的 一 次 执行 。 与 之 相关 的 第 一 个 操作 就 是 执行 ， 除 了 执行 代码 段 
里 的 代码 外 ， 还 可 能 执行 堆 上 、 栈 上 、 甚 至 匿名 映射 内 存 中 的 代码 。 其 次 ， 进 程 是 操作 系统 的 





































































































调度 单位 。 进 程 可 以 “繁殖 ”， 所 以 有 父子 关系 ， 子 进程 可 以 和 父 进 程 共享 某 些 信息 ; 进程 之 间 























可 以 收发 信号 ， 可 以 跟踪 或 被 跟踪 ， 为 了 完成 这 些 复杂 的 操作 ， 进 程 还 是 一 个 资源 的 集合 ，i 



























































上 下 文 ， 这 部 分 信 ， 





(1) 执行 
execheap 在 堆 上 执行 
execmem 在 匿名 内 存 映 射 上 或 在 私有 文件 映射 上 执行 
execstack 在 栈 上 执行 


e 
内 














程 有 进程 号 、 进 程 组 号 、 进 程 会 话 号 、 调 度 优先 级 等 等 。 最 后 ，SELinux 在 进程 中 增加 了 安全 
息 的 存 取 也 是 进程 操作 的 

















部 分 。 
































程 的 执行 





ptrace 跟踪 进 


noatsecure 关闭 参数 ATSECURE 的 设置 











核 在 exec 系统 调用 


行 一 些 安全 操作 。 
(2) 繁殖 
€ fork 通过 fork() &k, clone0 创 建新 进程 
€ share 允许 父子 进程 共享 一 些 进程 数据 ， 比 如 文件 系统 


当 调 用 clone0 时 ， 如 带 有 CLONE 
当前 工作 目录 、umask。 父 或 子 进程 调 


E 







































































(3) 资源 
getcap 读 取 进 程 的 能 力 集合 





















































setcap 设置 进程 (自己 ) WES 











AN 
DP 











getpgid 读 取 进程 的 组 id 




















setpgid 设置 进程 的 组 id 

















getsession 读 取 进 程 的 会 话 id 


getsched 读 取 进 程 的 调度 信息 


setsched 设置 




















进程 的 调度 信息 





rlimitinh 可 以 从 父 进 程 继承 rlimit 信 ， 





可 能 会 设置 一 个 参数 ATSECURE 传递 到 用 户 态 ， 由 libc(loader) 执 


























FS 标志 ， 父 子 进程 共享 同样 的 文件 系统 信息 ， 包 括 根 、 
] chroot, chdir, umask 时 就 会 影响 到 另外 的 进程 。 











D 
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€ setrlimit 修改 进程 的 rlimit 信息 
(4) 信和 号 
siginh 可 以 从 父 进程 继承 信号 状态 信息 
sigchld 允许 发 送 SIGCHLD 信和 号 
sigkill 允许 发 送 SIGKILL 信和 号 
sigstop 允许 发 送 SIGSTOP 信号 
signal 允许 发 送 其 他 信号 
signull 允许 探知 进程 的 存在 
(5) SELinux 
下 面 要 讲述 的 操作 和 进程 的 安全 上 下 文 有 关 。SELinux 为 了 精细 地 区 分 不 同 场景 ， 为 主体 
(进程 ) 设计 了 多 个 安全 上 下 文 。 所 以 在 介绍 具体 操作 之 前 ， 有 必要 先 介绍 一 下 进程 上 不 同 的 安 
全 上 下 文 。 













































































security/selinux/include/objsec.h 


struct task security struct { 


u32 osid; /* SID prior to last execve */ 
u32 sid; /* current SID */ 

u32 exec sid; /* exec SID */ 

u32 create sid; /* fscreate SID */ 

u32 keycreate sid; /* keycreate SID */ 

u32 sockcreate sid; /* fscreate SID */ 


}; 


下 面 先 解释 一 下 进程 的 各 安全 上 下 文 的 含义 : 

1) 以 前 的 安全 上 下 文 (osid) 

变化 之 前 的 进程 安全 上 下 文 。 

2) 进程 安全 上 下 文 (sid) 
这 是 进程 最 基本 的 安全 上 上 下文， 标记 了 进程 的 安全 属性 。 
3) 执行 安全 上 下 文 Cexec sid) 
当 进 程 执行 execve 系统 调用 时 ， 进 程 的 安全 上 下 文 可 能 会 发 生变 化 。 一 种 情况 是 ， 进 程 的 

新 安全 上 下 文 来 自 进程 的 旧 安 全 上 下 文 和 被 执行 文件 的 安全 上 下 文 进行 运算 后 的 结果 。 另 一 种 

青 况 是 ， 来 自 进程 的 “执行 安全 上 下 文 ”。 此 项 操作 用 于 设置 进程 的 执行 安全 上 下 文 。 













































































































































































is 


























— 














security/selinux/hooks.c 
static int selinux bprm set creds(struct linux binprm *bprm) 


( 


old tsec - current security(); 





new tsec = bprm-»cred-»security; 


if (old tsec-»exec sid) { 
new tsec-»sid - old tsec-»exec sid; 
/* Reset exec SID on execve. */ 


new tsec-»exec sid - 0; 
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) else ( 
/* Check for a default transition on this program. */ 


security transition sid(old tsec-»sid, isec-»sid, 


SECCLASS PROCESS, NULL, 


LC. 








&new tsec-»sid); 
if (rc) 


return rc; 


) 


4) 文件 安全 上 下 文 〈create sid) 

当 进 程 创 建文 件 时 ， 文 件 的 安全 上 下 文 是 : 
D 如 果 进 程 的 文件 系统 安全 上 下 文 不 为 空 ， 那么 文件 的 安全 上 下 文 的 值 就 是 进程 的 文件 系 
统 安 全 上 下 文 。 
iD 如 果 进 程 的 文件 系统 安全 上 下 文 为 裤 ， 那 么 文件 的 安全 上 下 文 就 是 用 进程 的 安全 上 下 
文 和 文件 所 在 目录 的 安全 上 下 文 进行 计算 的 结果 。 




















E 














































































































security/selinux/hooks.c 
static int may create (struct inode *dir, struct dentry *dentry, ul6 tclass) 


( 





const struct task security struct *tsec - current security(); 


struct inode security struct *dsec; 


dsec = dir-»i security; 
sid = tsec-»sid; 
newsid = tsec-»create sid; 








if (!newsid || !(sbsec-»flags & SBLABEL MNT)) { 
rc-security transition sid(sid, dsec-»sid, tclass, &dentry-»d name, &newsid); 


if (rc) 


return rc; 


) 


5) 密 钥 安全 上 下 文 (keycreate_sid) 
创建 密 钥 时 ， 如 果 进 程 有 密 钥 上 下 文 ， 新 密 钥 的 安全 上 下 文 就 用 进程 的 密 钥 上 下 文 ; 否则 ， 


新 密 钥 的 安全 上 下 文 就 用 进程 的 安全 上 下 文 。 




































































d 


security/selinux/hooks.c 
static int selinux key alloc (struct key *k, const struct cred *cred, unsigned 


long flags) 
{ 


const struct task security struct *tsec; 


struct key security struct *ksec; 
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ksec - 





kzalloc(sizeof(struct key security struct), GFP KERNEL); 
if (!ksec) 


return -ENOMEM; 























tsec = cred-»security; 


if (tsec-»keycreate sid) 





ksec-»sid = tsec-»keycreate sid; 
else 


ksec-»sid = tsec-»sid; 


k-»5security = ksec; 
return 0; 


) 








60 套 接 字 安全 上 下 文 〈sockcreate sid) 
进程 创建 套 接 字 时 ， 如 果 进 程 有 套 接 字 安全 上 下 文 ， 新 套 接 字 的 安全 上 下 文 就 用 进程 的 套 
接 字 安 全 上 下 文 ; 否则， 新 套 接 字 安全 上 下 文 来 自 运算 的 结果 。 



































security/selinux/hooks.c 
static int socket sockcreate sid(const struct task security struct *tsec, 


ul6 secclass, u32 *socksid) 


if (tsec-»sockcreate sid > SECSID NULL) { 





*socksid = tsec-»sockcreate sid; 
return 0; 


) 


return security transition sid(tsec-»sid, tsec-»sid, secclass, NULL, socksid); 


) 











这 些 安 全 上 下 文 可 以 通过 /proc/[pid]/attr 目录 下 的 若干 伪 文 件 接口 设置 和 查看 。 



































zhi@ubuntu-desktop:~/git/linux-3.14-rc4/securi 


ty/selinux/include$ ls 
/proc/self/attr 


current exec fscreat keycreat prev 





Sockcreate 

















现在 终于 可 以 介绍 进程 上 的 和 SELinux 相关 的 操作 了 。 进 程 查 看 /proc/[pidj/attr 下 各 个 伪 文 


件 需 要 getattr 操作 许可 。 进 程 设置 /proc/[pid]/attr 下 的 伪 文 件 ， 则 视 文 件 不 同 ， 需 要 不 同 的 操作 
许可 。 


€ getattr 获取 进程 的 安全 上 下 文 
对 /proc/[pidj/attr 下 所 有 文件 的 读 取 都 需要 此 项 权限 。 
@ setcurrent 通过 修改 /proc/self/attr/current 文件 内 容 更 改 当前 进程 安全 上 下 文 
动态 改变 一 个 进程 的 安全 上 下 文 必须 同时 满足 下 面 3 个 条 件 : 
a) 只 能 改 自 己 的 。 
b) 有 策略 允许 进程 具有 setcurrent 操作 许可 。 
c) 有 策略 允许 进程 的 安全 上 下 文 改 变 为 新 的 值 
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7h 
HI 
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setexec 设置 进程 执行 安全 上 下 文 























setfscreate 设置 进程 文件 系统 安全 上 下 文 















































setsockcreate 设置 进程 套 接 字 安全 上 下 文 
dyntransition 动态 转化 到 一 个 新 域 
dyntransition 影响 的 是 进程 以 setcurrent 方式 〈 写 /proc/selfWattrcurrent) 得 到 的 新 的 安全 


上 下 文 。 


@ 
@ 
€ setkeycreate 设置 进程 密 钥 安全 上 下 文 
e 
e 


























€ transition 在 执行 exec0 时 ， 转 化 到 一 个 新 安全 上 下 文 
transition 影响 的 是 进程 调用 execve 后 的 安全 上 下 文 。 


2. 文件 


UNIX 的 哲学 是 














件 、 


管道 文件 等 。 


















































首先 ， 文 件 是 信息 的 载体 ， 所 以 文件 可 以 被 创建 、 
储 于 其 中 的 数据 ， 还 关联 一 些 所 谓 的 元 数据 ， 比 如 创建 时 间 、 属 主 、 数 据 大 小 等 。 这 些 元 数据 























万 物 皆 文件。 文件 的 类 别 有 : 普通 文件 、 设 备 文件 、 





socket 文件 、 








读 、 Tj. 添加 ; 





链接 文 








X x4 





不 仅 包含 存 





存储 在 文件 属性 中 ， 读 写 元 数据 的 操作 就 是 getattr 和 setattr， 当 有 多 个 进程 需要 同时 操作 一 个 





文件 时 ， 就 有 了 同步 的 需求 ， 因 此 有 了 dock; 文件 还 可 能 关联 特殊 的 操作 ， 那 些 特殊 的 操作 都 









































被 归于 ioctl; 文件 都 关联 到 某 个 目录 之 下 ， 相 关 的 操作 就 有 删除 、 改 名 、 移 动 ， 文件 可 以 被 执 


行 ， 一 个 不 常见 的 用 法 是 执行 的 同时 改变 文件 内 容 。 



































(1) 文件 的 共有 操作 


1) 基本 操作 


@ open 打开 文件 。 
@ create 创建 文件 。 
FE 上 运行 ioctl 系统 调用 。 











€ ioctl! 在 文人 


























€ lock 在 文件 上 设置 或 删除 锁 。 





2) 数据 操作 





@ read 读 取 文件 内 容 。 

@ write 写 入 文件 内 容 。 

€ append 在 文件 尾 添 加 数据 。 
3) 元 数据 操作 

@ getattr 读 取 文 件 属性 。 

€ setattr 设置 文件 属性 。 








4) 





目录 相关 











€ unlink 删除 文件 (实际 上 删除 的 是 hard link )。 
@ link 创建 硬 链接 (hard link)。 


€ rename 文 伯 


5) 执行 操作 





F 改 名 。 


@ execute 执行 文件 。 


€ execmod 执行 文件 ， 同 时 修改 文件 。 


6) SELinux 相 
@ relabelfrom 





ABRE 











改变 文件 的 安全 上 下 文 ， 使 其 不 再 是 现在 的 值 。 
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€ relabelto MÆ XH 

















7) 其 他 操作 


€ swapon : xH 
有 看 到 这 个 操作 许可 起 任何 作 
的 功能 被 别 的 操作 许可 替代 了 ， 
作 许 可 ， 作 者 一 得 








F 的 安全 





F 用 作 操 作 系统 swap 





€ quotaon: 设置 quota。 


* 
€ mounton : 


(2) 








不 同 的 文件 子 类 别 








FF 下文 ， 使 其 改变 到 新 的 值 。 


























区 。 这 个 操作 似乎 没有 月 






































]， 但 是 它 还 存在 ， 可 能 是 














SELinux 将 文件 分 成 不 同 的 子 类 别 : 





普通 文件 。 
目录 文件 。 





字符 设备 文件 。 





套 接 字 文件 。 


链接 文件 。 





管道 文件 。 


MAE 


是 这 样 的 , 像 quotaon 这 种 操作 对 套 接 字 文件 是 没有 意义 的 。SELinux 在 文 伯 


有 些 奇怪 
晶 是 SEL 














— 








BIS 
普通 

















€ execute no trans: 执行 (exec) 文件 后 进 
开 时 的 许可 ，execute no trans 和 
的 值 。 
€ entrypoint: 执行 (exec) 文件 后 





® 
e 
e 
e 块 设备 文件 。 
e 
9 
e 
































e «t» 
L. o 





把 文件 作为 一 个 挂 载 点 。 














到。 在 SELinux 代码 中 没 
在 SELinux 的 演进 过 程 中 ， 它 
但 是 它 本 身 又 没有 被 删除 干净 。 下 面 还 有 很 多 类 似 的 操 
LE 在 操作 后 面 加 六 























辑 上 讲 ， 上 一 节 所 列 出 的 应 该 是 在 所 有 文件 子 类 别 上 都 可 以 进行 的 操作 ， 但 是 显然 不 


























操作 上 的 这 种 设计 











， 分 出 了 许多 文件 子 类 别 ， 但 又 没有 将 文件 操作 随 之 细 分 。 如 果 都 不 细 分 ， 也 可 以 ， 








inux X fi f CE 38. SC FU 
1) 普通 文件 

















文件 增加 的 操作 类 型 者 























2) 目录 











目录 


€ add name: 在 


e 
e re 
e 


remove name: 在 


额外 操作 是 : 



































parent: 更 改 父 目录 。 














search: 搜索 目录 。Linux 系统 ! 














和 执行 有 关 。 




































































目录 文件 上 增加 了 专 有 的 操作 ， 下 面 看 一 下 。 





程 的 安全 上 下 文 不 变 。execute 负责 的 是 文件 打 








entrypoint 负责 的 是 进程 执行 文件 后 进程 的 安全 上 下 文 


进程 安全 上 下 文中 的 类 








目录 中 增加 文件 或 子 目录 。 
目录 中 删除 文件 或 子 目录 。 


全 路 径 名 又 被 称 为 路 径 (path)。 经 过 的 各 级 目 


及 这 个 操作 许可 。 把 search 理解 为 通过 就 清楚 了 。 
@ rmdir: 删除 目录 。 


(3) 


文件 相关 的 其 他 客体 





1) 文件 描述 符 


(EAE 
符 ， 其 


一 一 … 


























些 情况 下 ， 进 程 间 可 以 传递 文件 描述 符 。SELinux 定义 了 一 个 客体 类 别 














只 有 一 个 操作 














2) 文件 系统 
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“use”. 





分 转换 为 新 值 。 





























录 就 涉 
































文件 描述 
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文件 系统 的 操作 如 下 所 示 。 

以 下 三 个 操作 和 挂 载 文 件 系 统 相 关 : 
€ mount: 挂 载 文件 系统 。 

€ remount: 重新 挂 载 文件 系统 。 

€ unmount: EZ CIE AREE. 

以 下 两 个 操作 和 文件 系统 的 配额 Cquota? 相关 ; 
@ quotamod: 修改 配额 数据 。 

€ quotaget: 读 取 配额 数据 。 

以 下 操作 和 文件 系统 属性 相关 : 

€ getattr: 读 取 文件 系统 属性 数据 。 
以 下 四 个 操作 和 SELinux 相关 : 












































E 














€ relabelfrom: 文件 系统 的 安全 上 下 文 不 再 是 现在 的 值 。 

















€ relabelto: 文件 系统 的 安全 上 下 文 改变 到 新 的 值 。 


LEE * 
€ transition 





























€ associate: 限定 文件 系统 中 文件 可 用 的 安全 上 下 文 的 值 。 





3. 套 接 字 (socket) 








UNIX 的 哲学 是 “万 物 皆 文件 ”。 但 是 起 源 于 BSD 的 套 


接 字 打破 了 这 


个 哲学 。 等 到 UNIX 











的 捍卫 者 想 要 将 套 接 字 统一 进 文件 时 ， 为 时 已 晚 5， 程 序 员 已 经 熟悉 了 套 接 字 ， 改 不 回来 了 。 
从 安全 的 角度 考虑 ，UNIX 上 原生 的 套 接 字 确实 有 些 问题 。UNIX 在 套 接 字 上 几乎 没有 访问 
控制 。 作 者 上 只 能 得 到 两 处 : 一 处 是 只 允许 代表 root 用 户 的 进程 绑 定 (bind) 特权 端口 ， 即 tep 
和 udp 的 端口 号 在 1024 以 下 的 端口 ; 另 一 处 是 发 生 在 UNIX 本 地 域 的 套 接 字 操 作 中 ,服务 器 端 
bind 操作 会 创建 一 个 套 接 字 文件 ， 在 客户 端 connect 操作 中 会 判断 客户 进程 对 此 套 接 字 文 件 是 











































































































否 有 写 许可 。 但 是 此 处 的 套 接 字 文件 上 只 是 一 种 文件 ， 并 不 是 套 接 字 。 























SELinux 虽然 弥补 了 这 一 缺失 ， 却 矫 枉 过 正 了 。 它 定义 的 套 接 字 子 类 别 过 多 ， 各 类 别 上 的 














操作 也 过 细 。 





和 文件 一 样 ， 套 接 字 也 有 很 多 种 ， 它 们 有 一 些 共 有 的 操作 许可 ， 其 9 





PF 有 一 些 和 文件 的 一 样 ， 


如 : ioctl、read、write、create、getattr、setattr、lock、relabelfrom、relabelto、append， 还 有 一 





些 是 套 接 字 特有 的 ， 如 : bind、connect、listen、accept、getopt、setopt、shutdown、recvfrom、 


sendto. recv msg. send msg. name bind. 


(OD 套 接 字 与 文件 共有 的 操作 许可 














UNIX 的 哲学 “万 物 乡 文件 "并非 赁 空 刻意 为 之 。 套 接 字 中 有 





7 





























fik 


多 和 文件 相同 的 操作 类 型 。 








SELinux 让 套 接 字 和 文件 共享 一 些 操作 类 型 ， 但 是 做 得 有 些 生硬 ， 一 些 对 套 接 字 没有 意义 的 操 

















作 类 型 也 混 了 进来 。 
以 下 是 套 接 字 的 基本 操作 : 
@ create 创建 套 接 字 
€ ioctl” 
€ lock 
以 下 操作 与 数据 收发 相关 : 























© http://en.wikipedia.org/wiki/Plan 9 from Bell Labs 
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€ read. 自 套 接 字 读 取消 息 。 

€ write 向 套 接 字 发 送 消息 。 
@ append 。 

以 下 操作 与 套 接 字 的 地 址 相关 : 











€ getattr 读 取 套 接 字 当前 绑 定 地 址 〈getsockname )， 或 者 读 取 连接 端 套 接 字 地 址 


Cgetpeername). 
€ setattr 。 
以 下 操作 与 SELinux 相关 : 




















€ relabelfrom 改变 套 接 字 的 安全 上 下 文 ， 使 其 不 


























€ relabelto 改变 套 接 字 的 安全 上 下 文 ， 使 其 变 为 六 
OD 套 接 字 特有 操作 许可 

以 下 操作 与 连接 相关 : 

@ bind 对 套 接 字 执行 系统 调用 bind 

€ name bind 绑 定 套 接 字 到 特权 端 
Linux 系统 为 网 络 服务 进程 定义 了 一 个 端口 范围 ， 

































































@ listen 对 套 接 字 执行 系统 调用 listen 

@ accept 对 套 接 字 执行 系统 调用 accept 
@ connect 对 套 接 字 执行 系统 调用 connect 
以 下 操作 与 套 接 字 属性 相关 : 
@ getopt 对 套 接 字 执 行 系统 调用 getsockopt 
@ setopt 对 套 接 字 执行 系统 调用 setsockopt 
以 下 操作 与 套 接 字 的 数据 收发 相关 : 






































再 是 现在 的 值 。 只 在 tun socket ! 











ifii. 











用 到 。 


绑 定 范围 外 端口 需要 此 项 操作 许可 ， 关 








于 端口 范围 可 以 查询 /proc/sys/{ipv4,ipv6}/ip local port range 文件 。 


€ recvfrom 自 套 接 字 读 取 数 据 包 。 只 被 udp_socket、tcp_socket、rawip_socket 使 用 ， 即 仅 





适用 于 主机 间 通 信 。 


























€ sendto 向 套 接 字 发 送 数 据 包 。 只 被 UNIX 套 接 字 使 有 


通信 。 
e recv msg 
e send msg 
以 下 为 其 他 操作 : 
€ shutdown 对 套 接 字 执 行 系统 调用 shutdown 
(3) 不 同 的 套 接 字 类 型 上 的 特有 操作 
1) tcp socket 


























在 客体 类 别 “tcp_socket” 上 的 操作 包含 上 面 列 出 的 所 有 套 接 字 与 文件 3 





接 字 的 特有 操作 ， 此 外 ，tcp_socket 还 包含 如 下 操作 : 
€ connectto" 
€ newconn 
e acceptfrom 
€ node bind 将 套 接 字 绑 定 到 某 个 网 络 地 址 上 

















昌 ， 即 仪 适 用 于 同一 主机 内 进程 间 




















入 有 的 操作 和 所 有 套 








主机 可 以 有 多 个 网 络 地 址 ， 如 127.0.0.1 是 回 送 地 址 ，192.168.1.1 是 内 部 局 域 网 地 址 。 这 个 
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操作 限定 绑 定 到 某 个 地 址 之 上 。 
€ name connect socket 连接 到 某 个 网 络 端口 上 

赋予 端口 安全 上 下 文 ， 限 制 对 端口 的 连接 操作 。 

2) udp socket 

客体 类 别 udp. socket 的 操作 既 包 含 所 有 套 接 字 的 共有 操作 ， 还 包含 如 下 操作 : 

€ node bind 将 socket 绑 定 到 某 个 网 络 地 址 上 

3) rawip socket 

客体 类 别 rawip socket 的 特有 操作 如 下 : 

€ node bind 将 socket 绑 定 到 某 个 网 络 地 址 上 

4) netlink socket 

此 套 接 字 类 别 没有 特有 操作 。 

5) netlink route socket 

客体 类 别 netlink route socket 的 特有 操作 如 下 : 

€ nlmsg read 读 取 信息 

@ nlmsg write 写 入 信息 

6) netlink firewall socket 

客体 类 别 netlink firewall socket 的 特有 操作 如 下 : 

€ nlmsg read 读 取 信息 

@ nlmsg write 写 入 信息 

7) netlink tcpdiag socket 

客体 类 别 netlink tepdiag socket 的 特有 操作 如 下 : 

@ nlmsg read 读 取 信息 

@ nlmsg write 写 入 信息 

8) netlink nflog socket 

此 套 接 字 类 别 没有 特有 操作 。 

9) netlink xfrm socket 

客体 类 别 netlink xfrm socket 的 特有 操作 如 下 : 

€ nlmsg read 读 取 信息 

€ nlmsg write 写 入 信息 

10) netlink selinux socket 

此 套 接 字 类 别 没有 特有 操作 。 

11) netlink audit socket 

客体 类 别 netlink_audit_socket 的 特有 操作 如 下 : 

nlmsg read 读 取 信息 

nlmsg write 写 入 信息 

nlmsg relay 将 用 户 态 audit 消息 转发 给 audit 服务 

nlmsg readpriv 列 出 audit 配置 规则 

nlmsg tty audit 控制 tty 审计 信息 

12) netlink ip6fw socket 

客体 类 别 netlink ip6fw socket 的 特有 操作 如 下 : 
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@ nlmsg read 读 取 信息 
@ nlmsg write 写 入 信息 
13) netlink dnrt socket 
此 套 接 字 类 别 没 有 特有 操作 。 

14) netlink kobject uevent socket 
此 套 接 字 类 别 没 有 特有 操作 。 

15) packet socket 
此 套 接 字 类 别 没 有 特有 操作 。 
16) key. socket 
此 套 接 字 类 别 没 有 特有 操作 。 

17) unix stream socket 

客体 类 别 “unix_stream socket” 的 特有 操作 如 下 : 
@ connectto 连接 到 服务 socket 


* 
€ newconn 






























































e acceptfrom 

18) unix dgream socket 

此 套 接 字 类 别 没 有 特有 操作 。 

19) appletalk socket 

此 套 接 字 类 别 没 有 特有 操作 。 

20) dccp socket 

客体 类 别 decp. socket 的 特有 操作 如 下 : 

€ node bind 将 socket 绑 定 到 某 个 网 络 地 址 上 

€ name connect 连接 socket 到 某 个 地 址 

21) tun socket 

客体 类 别 “tun socket” 的 特有 操作 如 下 : 

€ attach queue 附加 一 个 新 队列 

SELinux 不 大 其 烦 地 在 套 接 字 上 细 分 出 子 类 别 ， 其 实 有 些 过 犹 不 及 。 

4. 进程 间 通 信 

进程 间 通 信 CInter-Process Communication, IPC) 包括 信号 灯 (Semaphore)、 消 息 队 列 
(Message Queue)、 共 享 内 存 (Shared Memory)。 它 们 具有 一 些 共同 的 操作 许可 : 

(1) 进程 间 通 信 的 共有 操作 
create 创建 
destroy 删除 
getattr 读 取 属性 
setattr 设置 属性 
associate 获取 IPC XJ% ID 

在 系统 调用 semget、msgget、shmget 中 ， 在 获取 IPC 对 象 前 ，SELinux 会 判断 associate 操 
作 许 可 。 

€ read 读 取 消息 /内 容 

@ write 写 入 消息 /内 容 
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€ unix read 读 取 

€ unix write 写 入 

unix read 和 unix write 是 指 传统 的 UNIX 中 规定 的 读 写 操作 。 它 们 和 打开 一 个 进程 间 通 信 
对 和 象 时 给 出 的 操作 模式 相 联 系 ， 是 只 读 、 只 写 或 读 写 方式 。read 和 write 的 功能 也 是 读 和 写 ， 其 
实 与 unix read 和 unix write 是 有 重合 的 。 下 面 看 代码 : 







































































ipc/shm.c 
long do shmat(int shmid, char » user *shmaddr, int shmflg, ulong *raddr, 


unsigned long shmlba) 








err = -EACCES; 
if (ipcperms(ns, &shp-»shm perm, acc mode)) 








goto out unlock; 


err = security shm shmat(shp, shmaddr, shmflg); 
if (err) 


goto out unlock; 




















上 面 的 代码 首先 调 了 进程 间 通 信 通 用 的 ipcperms， 然 后 调 了 共享 内 存 专 有 的 security 


shm_shmat。 先 来 看 ipcperms. 


























ipc/util.c 
int ipcperms (struct ipc namespace *ns, struct kern ipc perm *ipcp, short flag) 


( 


return security ipc permission(ipcp, flag); 




















security ipc permission 会 调用 SELinux 的 钩子 函数 selinux ipe permission. 


security/selinux/hooks.c 
static int selinux ipc permission(struct kern ipc perm *ipcp, short flag) 


( 
u32 av = 0; 


av = 0; 


if (flag & S IRUGO) 








av |= IPC UNIX READ; 
if (flag & S IWUGO) 

av |= IPC UNIX WRITE; 
if (av == 0) 


return 0; 
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return ipc has perm(ipcp, av); 


) 


总 结 一 下 ，ipcperms 会 间接 调用 ipe has perm 来 判断 unix read 和 unix write 操作 许可 。 
下 面 看 security shm_shmat， 它 会 调用 SELinux HEYT AZ selinux_ shm shmat: 














security/selinux/hooks.c 
static int selinux shm shmat(struct shmid kernel *shp, 
char » user *shmaddr, int shmflg) 


u32 perms; 


if (shmflg & SHM RDONLY) 
perms = SHM READ; 

else 
perms = SHM READ | SHM WRITE; 








return ipc has perm(&shp-»shm perm, perms); 





总 结 一 下 ，security shm shmat 会 间接 调用 ipe has perm 来 判断 read 和 write 操作 许可 。 

在 SELinux 代码 中 ， 有 些 上 暗含 读 语义 或 写 语义 的 系统 调用 中 也 会 判断 read 和 write 操 
作 ， 例 如 在 系统 调用 semctl 中 ， 当 参数 cmd 是 GETVAL 或 GETALL 时 ，SELinux 会 判断 read 
操作 许可 。 


























security/selinux/hooks.c 
static int selinux sem semctl(struct sem array *sma, int cmd) 
{ 

int err; 


u32 perms; 
switch (cmd) { 
case GETVAL: 


case GETALL 


perms = SEM READ; 





























break; 
case SETVAL: 
case SETALL: 

perms = SEM WRITE; 


break; 























default: 


return 0; 


err = ipc has perm(&sma-»sem perm, perms); 
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return err; 


) 





(2) 各 种 进程 间 通 信 上 的 特有 操作 


在 信 

















n» 


义 是 发 送 消息 到 消息 





号 灯 上 无 特有 操作 ; 在 消息 队列 上 有 一 个 特有 操作 enqueue, 





队列 ， 在 共享 内 存 上 的 特有 操作 是 lock， 含 义 是 加 锁 或 解锁 共享 内 存 。 
(3) 消息 队列 中 的 消息 

在 消息 队列 的 消息 本 身 也 带 有 安全 上 下 文 。 

对 消息 队列 中 的 消息 ，SELinux 提供 了 额外 的 操作 许可 。 


€ receive. 从 队列 读 取 消息 
































€ send 向 队列 写 入 消息 


细 分 析 SELinux 代码 你 会 发 现 ， 它 有 





有 的 地 方 实在 是 罗 嗪 。 以 消息 队列 为 例 ， 为 了 获得 消 





TT 

















县 队列 对 象 ， 应 程序 要 调用 系统 调用 msgget，SELinux 会 根据 传 入 参数 msgflg 检查 unix read 
和 unix write， 还 会 判断 associate。 然 后 应 用 程序 调用 msgrev 或 msgsnd 时 ，SELinux 会 先 判断 
unix read 和 unix write， 然后 判断 read 和 write， 最 后 还 要 在 消息 上 判断 receive 和 send。 下 面 


下 代码 。 


看 一 
























































ipc/msg.c 
SYSCALL DEFINE2(msgget, key t, key, int, msgflg) 
{ 














struct ipc namespace *ns; 
struct ipc ops msg ops; 
struct ipc params msg params; 


ns = current-»nsproxy-»ipc ns; 





msg ops.getnew = newque; 
msg ops.associate - msg security; 


msg ops.more checks - NULL; 


msg params.key - key; 
msg params.flg - msgflg; 


return ipcget(ns, &msg ids(ns), &msg ops, &msg params); 
} 
ipc/util.c 
int ipcget(struct ipc namespace *ns, struct ipc ids *ids, 
struct ipc ops *ops, struct ipc params *params) 





if (params-»key == IPC PRIVATE) 
return ipcget new(ns, ids, ops, params); 
else 
return ipcget public(ns, ids, ops, params); 
} 
ipc/util.c 


static int ipcget public(struct ipc namespace *ns, struct ipc ids *ids, 
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struct ipc ops *ops, struct ipc params *params) 


err = ipc check perms(ns, ipcp, ops, params); 


} 
ipc/util.c 
static int ipc check perms(struct ipc namespace *ns, 


struct 
struct 


struct 


kern ipc perm *ipcp, 
ipc ops *ops, 


ipc params *params) 














int err; 
if (ipcperms(ns, ipcp, params-»flg)) 
err - -EACCES; 
else { 
err = ops-»associate(ipcp, params-»flg); 
if (lerr) 
err = ipcp-^id; 


return err; 


这 里 的 associate 函数 指针 指向 函数 msg, security» 





ipc/msg.c 
static inline int msg security(struct kern ipc perm *ipcp, 


( 


int msgflg) 
struct msg queue *msq- container of(ipcp, struct msg queue, q perm); 


return security msg queue associate(msq, msgflg); 

















] SELinux HET AŽ 





security msg queue associate 会 调 


security/selinux/hooks.c 
static int selinux msg queue associate(struct msg queue *msq, int msqflg) 
{ 

struct ipc security struct *isec; 

struct common audit data ad; 

u32 sid - current sid(); 


isec = msq-»q perm.security; 


ad.type - LSM AUDIT DATA IPC; 


ad.u.ipc id = msq-»q perm.key; 
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return avc has perm(sid, isec-»sid, SECCLASS MSGQ, 
MSGQ ASSOCIATE, &ad); 








以 发 送 为 例 : 


ipc/msg.c 














SYSCALL DEFINE4 (msgsnd, int, msqid, struct msgbuf user *, msgp, size t, msgsz, 
int, msgflg) 


long mtype; 


if (get user(mtype, &msgp-»mtype)) 
return -EFAULT; 
return do msgsnd(msqid, mtype, msgp-»mtext, msgsz, msgflg); 
} 
ipc/msg.c 
long do msgsnd(int msqid, long mtype, void X user *mtext, 


size t msgsz, int msgflg) 


for (;;) ( 


struct msg sender s; 





err = -EACCES; 











if (ipcperms (ns, &msq-»q perm, S IWUGO)) 
goto out unlock0; 


err = security msg queue msgsnd(msq, msg, msgflg); 
if (err) 


goto out unlock0; 





security msg queue msgsnd 会 调用 SELinux 的 钩子 函数 selinux msg queue msgsnd: 


security/selinux/hooks.c 


static int selinux msg queue msgsnd(struct msg queue *msq, struct msg msg 
*msg, int msqflg) 
{ 








rc = avc has perm(sid, isec-»sid, SECCLASS MSGO, MSGO WRITE, &ad); 
if (!rc) 


/* Can this process send the message */ 





rc = avc has perm(sid, msec-»sid, SECCLASS MSG, MSG SEND, &ad); 
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if Ugo) 
/* Can the message be put in the queue? */ 
rc-avc has perm(msec-»sid, isec-»sid, SECCLASS MSGOQ, MSGQ  ENQUEUE, &ad); 




















return rc; 


) 


5. 网 络 

SELinux 对 网 络 对 象 的 标记 比较 复杂 ， 目 前 大 概 有 4 套 体系 共存 : 通过 SELinux 网 络 策略 
标记 、 通 过 标签 化 的 卫 协议 头 〈CIPSO) 标记 9、 通过 IPSEC 标记 、 通 过 iptable 的 secmark 标 
记 。 其 中 ， 标 签 化 网 络 形式 又 支持 在 P 协议 头 没 有 标记 的 情况 下 ， 根 据 环境 信息 (IP 地 址 、 端 
号 ) 标记 网 络 ， 这 又 和 通过 SELinux 网 络 策略 标记 重合 。 

为 什么 SELinux 中 会 有 这 么 多 套 体系 同时 作用 于 网 络 类 的 客体 呢 ? 作者 认为 原因 是 

SELinux 在 如 何 为 网 络 类 客体 设计 安全 上 下 文 上 还 不 成 熟 。 

为 了 便于 理解 ， 下 面具 介绍 第 一 个 方案 。 先 思考 一 下 网 络 对 象 是 由 什么 组 成 的 ? 首先 是 节 
点 (node), 节点 由 IP 地 址 限定 。 其 次 , 在 节点 上 有 一 个 进程 在 收发 网 络 包 , 这 被 定义 为 “peer”。 
然后 ， 当 网 络 包 到 达 本 地 端 时 ， 它 要 经 过 网 卡 ， 这 被 定义 为 网 络 接口 “netif”。 最 后 ， 当 我 们 将 
控制 的 粒度 细 化 时 , 对 每 一 个 网 络 包 都 可 以 实施 不 同 的 访问 控制 , 网 络 包 就 被 定义 为 “packet”。 

(1) 网 络 节 点 (node) 

客体 类 别 “node” 上 有 以 下 操作 。 这 些 操 作 不 是 同时 加 入 的 。 在 “recvfrom” 和 “sendto” 
两 个 操作 加 入 内 核 后 ， 其 他 的 操作 就 不 再 使 用 了 。 


$ 
€ dccp recv 


















































































































































































































































dccp send 
tcp recv. 
tcp send. 
udp recv 
udp send 
rawip recV 
rawip send 
enforce dest 
recvfrom 接收 来 自 网 络 节点 的 数据 包 
sendto 发 送 数据 包 到 网 络 节点 
(2) 网 络 接口 (netif) 
客体 类 别 “netif” 上 有 以 下 操作 。 这 些 操作 不 是 同时 加 入 的 。 在 “ingress” 和 “egress” 两 
个 操作 加 入 内 核 后 ， 其 他 的 操作 就 不 再 使 用 了 。 


* 
€ tcp recv 



































e tcp send. 
e udp recv 
e udp send 
e 


r * 
rawip recv 
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e rawip send" 

e dccp recv 

e dccp send 

€ ingress 通过 网 络 接口 接收 数据 包 

€ egress 通过 网 络 接口 发 送 数据 包 

(3) peer 

客体 类 别 “peer” 的 引入 简化 了 SELinux 的 逻辑 2。 其 上 有 一 个 操作 : 

€ recv 接收 消息 

(4) packet 

客体 类 别 “packet” 指 网 络 上 传输 的 数据 包 。 其 上 有 五 个 操作 ， 可 分 为 两 类 。 
1) 基本 

€ send 发 送 

€ recv 接收 

€ forward in HAR 

€ forward out 向 外 转发 

2) SELinux 相关 

€ relabelto 

标记 SELinux 的 安全 上 下 文 。 奇 怪 的 是 ， 没 有 relabelfrom。 

6. 系统 system) 

文件 可 以 有 多 个 ， 套 接 字 也 可 以 有 多 个 ， 但 系统 类 别 的 客体 实例 是 全 局 性 的 ， 只 有 一 个 。 









































































































































system 类 型 之 上 的 操作 有 获取 ipe 信息 (ipc_info)、syslog 相关 操作 (syslog console. syslog - 
mod, syslog read) 和 内 核 模 块 相关 操作 (module request)。 虽 然 叫 系统 ， 却 只 涉及 窒 窗 几 个 操 


作 许可 ， 让 人 感到 有 些 奇怪 。 

















(1) 进程 间 通 信 
€ ipc info 读 取 系统 ipc 信息 
it 体 来 说 ， 当 系统 调用 msgctl 的 cmd 参数 为 IPC INFO 或 MSG INFO 时 ， 或 当 系 统 调用 






























































semctl 的 cmd 参数 为 PC _JINFO 或 SEM INFO 时 ， 或 当 系 统 调用 shmctl 的 cmd 参数 为 IPC INFO 
或 SHM INFO 时 ，SELinux 会 判断 此 操作 许可 。 




















(2) syslog 

以 下 几 个 操作 都 和 系统 调用 syslog 相关 。 

€ syslog read: 读 取 kernel 日 志 消息 。 

€ syslog mod: 清空 kernel 消息 缓冲 区 。 

€ syslog console: 控制 kernel 日 志 打 印 到 控制 台 
(3) module 

€ module request: 加 载 内 核 模块 。 

7. 安全 (security) 

SELinux 的 设计 者 希望 设计 出 一 个 完备 的 系统 ， 对 于 自身 的 管理 也 要 纳入 到 SELinux 的 管 
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i: 














理 体 系 中 。 所 以 SELinux 引入 了 新 的 客体 类 别 一 一 安全 。 在 安全 类 别 上 的 操作 都 和 SELinux A 
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身 管理 有 关 。 
这 里 有 一 个 问题 : SELinux 是 如 何 管理 自身 的 呢 ? 因为 Linux 内 核对 增加 系统 调用 非常 慎 
重 ， 所 以 SELinux 没有 引入 新 的 系统 调用 ， 而 是 构建 了 一 个 文件 系统 一 一 selinuxfs。 在 Linux 
上 增加 文件 系统 是 很 容易 的 。 用 户 态 进程 通过 读 写 selinuxfs 上 的 文件 来 实现 对 SELinux 的 管理 。 
相应 地 ，SELinux 规定 了 以 下 操作 : 
€ check context: 查看 安全 上 下 文 是 否 合法 。 
€ compute av: 根据 源 安全 上 上 下文、 目的 安全 上 上 下文、 客体 类 型 计算 访问 许可 。 
€ compute create: 输入 源 安全 上 下 文 、 目 的 安全 上 上下文、 客体 类 型 ， 根 据 type transition 
策略 计算 新 安全 上 下 文 。 
€ compute member: 输入 源 安 全 上 下 文 、 目 的 安全 上 下 文 、 客 体 类 型 ， 根 据 type member 
策略 计算 新 安全 上 下 文 。 
€ compute relabel: 输入 源 安 全 上 下 文 、 目 的 安全 上 下 文 、 客 体 类 型 ， 根 据 type change 
策略 计算 新 安全 上 下 文 。 
compute user: 输入 安全 上 下 文 和 用 户 名 ， 计 算 新 的 安全 上 下 文 。 
load policy: 加 载 安全 策略 。 
setbool: 改变 SELinux 布尔 变量 值 。 
setcheckreqprot: 修改 SELinux 变量 checkreqprot 值 。 在 执行 mmap 和 mprotect 系统 调用 
时 ， 若 值 为 0，， 执 行 来 自 内 核 的 检验 方法 ， 若 值 为 1， 执 行 来 自 应 用 的 检验 模式 。 内 核 
的 检查 方法 是 将 read 和 exec 联系 起 来 。 



























































































































































































































































€ setenforce: 改变 SELinux 的 enforcement 状态 (permissive 或 enforcing). 
€ setsecparam: 改变 AVC 参数 。 
8. 能 
能 力 是 进程 的 特权 。 从 逻辑 上 讲 ， 能 力 是 进程 的 一 种 资源 。 如 果 能 力 可 以 是 一 种 客体 ， 那 
么 进程 的 内 存 大 小 、 进 程 的 描述 符 数量 、 文 件 占 用 的 磁盘 块 数量 、 用 户 同时 拥有 的 进程 数量 都 
可 以 是 客体 。 
如 果 把 能 力作 为 一 种 客体 ， 那 么 对 能 力 的 操作 应 该 是 添加 、 删 除 、 查 看 。 但 是 这 样 设计 
没有 任何 意义 。 因 为 在 execve 系统 调用 中 不 会 区 分 添加 和 删除 ; 在 capset 系统 调用 中 只 允许 
删除 能 力 ， 而 删除 能 力 本 身 不 应 被 限制 ;查看 进程 的 能 力也 没有 什么 安全 问题 ， 没 有 限制 的 
必要 。 

SELinux 要 套用 它 的 标准 逻辑 “主体 操作 客体 ”。 所 以 SELinux 将 能 力 定义 为 一 种 客体 类 
别 ， 将 能 力 上 的 操作 定义 为 具体 的 能 力 ， 如 cap_chown。 这 种 设计 带 来 了 三 个 问题 : 

d) 有 具体 的 能 力 怎 么 能 成 为 能 力 的 操作 呢 ?” 这 不 合 逻 辑 。 

OD 进程 是 主体 ， 能 力 是 客体 ， 能 力 本 身 就 是 进程 的 一 个 属性 ， 主 体 和 客体 的 安全 上 下 文 
总 是 一 样 的 。 

(3) SELinux 为 能 力 设计 了 两 个 客体 类 别 : capability 和 capability2。capability 对 应 前 32 个 
能 力 ，capability2 对 应 后 32 个 能 力 。 

SELinux 内 部 用 一 个 比特 表示 一 个 操作 , 用 一 个 32 位 整数 表示 在 某 个 客体 类 别 上 的 全 部 操 
作 类 型 。 如 进程 上 的 操作 一 共有 30 个 ， 目 录 上 的 操作 一 共有 25 个 ， 都 没有 超过 32。 但 是 在 能 
力 上 ， 原 有 代码 的 数据 结构 无 法 表示 ， 为 了 解决 这 个 问题 ，SELinux 就 多 引入 了 一 个 能 力 相关 
的 客体 类 别 capability2 。 
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能 力 只 有 一 个 ，capability 和 capability2 在 语义 上 没有 区 别 ， 这 种 设计 实在 算 不 上 优雅 。 

9. 用 户 态 客 体 

Linux 系统 中 还 有 一 些 客体 存在 于 用 户 态 。 如 数据 库 ， 在 内 核 眼 里 只 有 文件 ， 没 有 表 
(table)、 记 录 (record) 之 类 。 所 以 对 数据 库 的 控制 自然 就 应 该 由 用 户 态 服务 进程 来 实施 。 但 
是 ， 相关 的 策略 仍然 被 内 核 掌控 ,整个 系统 只 有 一 个 策略 库 ， 这 个 策略 库存 储 在 内 核 内 存 之 中 ， 
内 核 的 安全 服务 器 负责 管理 。 那 些 用 户 态 服务 进程 所 做 的 工作 就 是 查询 策略 库 确定 对 用 户 态 
客体 的 操作 是 否 允 许 。 

SELinux 的 用 户 态 客体 包括 数据 库 类 型 (db database. db table. db procedure. db column, 










































































































































































db_tuple*…*… )、X-Window 相关 类 型 (x drawable, x screen. x gc. x font, x colormap*……… DS 
dbus 等 。 
10. 其 他 














SELinux 中 还 有 一 些 很 少 用 到 的 客体 ， 这 里 就 不 列举 了 。 
7.2.3. 安全 上 下 文 的 生成 和 变化 


7.2.1 节 介 绍 了 安全 上 下 文 ,7.2.2 节 介绍 了 客体 类 别 和 客体 上 的 操作 。 有 了 安全 上 下 文 , 有 
了 操作 ， 再 加 上 7.3 节 要 介绍 的 SELinux 策略 ， 系 统管 理 员 就 可 以 规定 安全 上 下 文 为 A 的 进程 
可 以 对 安全 上 下 文 为 B 的 文件 进行 C 操作 。 这 样 就 完成 了 SELinux 的 强制 访问 控制 。 

但 是 ， 主 体 和 客体 的 安全 上 下 文 的 值 是 怎么 设置 的 ? 主体 和 客体 的 安全 上 下 文 能 不 能 改 
变 ? 如 果 能 ， 可 以 改变 成 什么 值 ? 

1. 安全 上 下 文 的 初始 值 

进程 的 安全 上 下 文 的 初始 值 有 两 个 来 源 : 

(1) 创建 进程 时 ， 子 进程 的 安全 上 下 文 是 父 进程 的 安全 上 下 文 的 吕 
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security/selinux/hooks.c 
static int selinux cred prepare (struct cred *new, const struct cred *old, 
gfp_t gfp) 
{ 
const struct task security struct *old tsec; 


struct task security struct *tsec; 


old tsec = old-»security; 
tsec = kmemdup(old tsec, sizeof(struct task security struct), gfp); 
if (!tsec) 








return -ENOMEM; 








new-»security = tsec; 
return 0; 


) 


(2) Linux 系统 中 第 一 个 进程 的 安全 上 下 文 是 SECINITSID_ KERNEL 所 对 应 的 安全 上 下 文 。 














security/selinux/hooks.c 


static void cred init security (void) 


59 


S 
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{ 


struct cred *cred 


struct task security struct *tsec; 
tsec 


(struct cred *) 
if (!tsec) 


panic("S 





kzalloc(sizeof(struct task security struct), GFP K 
ELinux: 





current-»real cred; 


tsec-»osid 


Failed to initialize initial task. Wn") 
tsec-»sid = 
cred-»security = 


S 





tsec; 








ERN 








ECINITSID K 








是 一 








ERN 








SELinux 代码 将 所 有 的 安 








EL; 
PAN 


个 sid. 








mM: 


上 下 文 存储 在 一 个 数组 
组 项 的 序号 来 代表 安全 上 下 文 。 这 个 序号 被 称 作 sid。 上 面 代码 中 的 SECINITSID KERNEL 就 





cred init security 函数 被 SELinux 的 初始 化 函数 调 月 





{ 





Pp， 为 了 提高 效率 ，SELinux 代码 




















security/selinux/hooks.c 
static 


日， 它 所 设置 
if 























init int selinux init (void) 


的 进程 正 是 系统 的 第 一 个 





(!security module enable(&selinux ops)) { 
selinux enabled - 0; 
return 0; 

if 





(!selinux enabled) 
printk (K 


{ 


return 0; 





ERN INFO "Si 





ELinux: 
printk(K 


ERN INFO "S] 





Disabled at boot.\n"); 


ELinux: 
/* Set t 





cred ini 


t security(); 


default noexec 


Initializing.in"); 
he security state for the initial task. 


! (VM DATA D 
1 inode cach 


"y 





EFAULT FLAGS & VM 
= kmem cache creat 
init(); 








EX 











if 


panic("S 


if 
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(selinux enforcing) 


EC); 


0, 





("selinux inode security", 


sizeof(struct inode security struct), 
SLAB PANIC, NULL); 
(register security(&selinux ops)) 
ELinux: 


Unable to register with kernel. n"); 
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printk (KERN DEBUG "SELinux: Starting in enforcing modein"); 























printk (KERN DEBUG "SELinux: Starting in permissive modeWn"); 








2. 安全 上 下 文 的 改变 
不 是 所 有 的 主体 和 客体 都 需要 改变 安全 上 下 文 ， 进 程 间 通信 类 客体 就 没有 必要 改变 安全 上 

































































下 文 。 下 面 列 出 改变 进程 和 文件 的 安全 上 下 文 的 逻辑 。 


用 ， 


的 值 


(1) 进程 



































SELinux 提供 了 两 种 方式 改变 进程 的 安全 上 下 文 。 第 一 种 方式 是 进程 调用 execve 系统 调 





























第 二 种 方式 是 通过 写 /proc/self/attr/current 文件 。 这 两 种 方式 在 前 面 已 经 列举 。 
(2) 文件 
文件 的 安全 上 下 文 记录 在 文件 的 扩展 属性 security.selinux 中 , 修改 扩展 属性 security.selinux 















































就 是 修改 文件 的 安全 上 下 文 。 


security/selinux/hooks.c 


static int selinux inode setxattr(struct dentry *dentry, const char *name, 





const void *value, size t size, int flags) 


struct inode *inode - dentry-»d inode; 


struct inode security struct *isec - inode-»i security; 





struct superblock security struct *sbsec; 
struct common audit data ad; 
u32 newsid, sid - current sid(); 


int rc = 0; 














if (strcmp(name, XATTR NAME SELINUX)) 


return selinux inode setotherxattr(dentry, name); 


sbsec = inode-»i sb-»s security; 
if (!(sbsec-»flags & SBLABEL MNT)) 
return -EOPNOTSUPP; 








if (linode owner or capable (inode)) 
return -EPERM; 














ad.type = LSM AUDIT DATA DENTRY; 
ad.u.dentry = dentry; 





rc = avc has perm(sid, isec-»sid, isec-»sclass, 
FILE  RELABELFROM, &ad); 

















if (rc) 


return rc; 
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rc = security context to sid(value, size, &newsid); 


if (rc) 
return rc; 
rc = avc has perm(sid, newsid, isec-»sclass, 
FILE RELABELTO, &ad); 

















if (rc) 


return rc; 


rc = security validate transition(isec-»sid, newsid, sid, 
isec-»sclass); 
if (rc) 


return rc; 


return avc has perm(newsid, 
sbsec-»sid, 

SECCLASS FILESYSTEM, 

FILESYSTEM ASSOCIATE 
































- 


&ad); 
} 


上 述 代码 判断 的 操作 许可 较 多 ， 主 要 的 有 三 个 : 

1) 文件 的 安全 上 下 文 不 再 是 现在 的 值 (RELABELFROM)。 

2) 文件 的 安全 上 下 文 可 以 是 新 的 值 (RELABELTO )。 

3) 文件 所 在 的 文件 系统 允许 文件 新 的 安全 上 下 文 (ASSOCIATE )。 


7.3 安全 策略 


UNIX/Linux 的 设计 传统 是 机 制 和 策略 分 离 。SELinux 遵循 了 这 一 传统 。7.2 节 介 绍 的 
SELinux 机 制 是 : 

D 主体 是 进程 ， 客 体 细 分 为 知 干 类 别 。 

2) 在 每 个 客体 类 别 上 定义 若干 操作 。 

3) 每 一 个 主体 和 客体 的 实例 都 关联 安全 上 下 文 。 

4) 主体 操作 客体 时 ，SELinux 会 根据 策略 判断 操作 是 否 允 许 。 

本 节 集 中 讲述 一 下 SELinux 的 策略 。 下 面 看 一 个 策略 的 例子 : 





































































































策略 语句 策略 含义 

allow init sshd exec t:file { getattr open read execute }; 允许 执行 

allow init sshd:process transition; 允许 域 转换 

allow sshd sshd exec t:file { entrypoint read execute }; 允许 作为 入 口 点 

allow sshd init:process sigchild; 允许 发 sigchild 

allow init sshd:process { siginh rlimitinh }; 允许 发 siginh 

type transition init sshd exec t:process sshd; 让 域 转换 成 为 缺 省 操作 
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简单 来 说 ， 上 述 语句 就 是 让 init 进程 可 以 执行 sshd 文件 ， 并 且 新 的 sshd 进程 的 安全 上 下 文 是 




















sshd. 




















策略 是 用 策略 语言 编写 的 。 用 户 态 策略 语言 文件 一 般 有 多 个 ， 其 格式 是 适合 用 户 阅 读 的 文 
本 格式 。 要 让 策略 起 作用 ， 管 理 员 需 要 用 SELinux 用 户 态 工具 将 策略 文件 编译 成 一 个 二 进 制 文 
TE, 然后 通过 selinuxfs 接口 , 将 这 个 二 进 制 文件 所 表示 的 策略 输入 到 内 核 存 储 空 间 的 策略 库 中 ， 
即 图 7-3 中 的 Security Server (安全 服务 器 )。 最 终 使 用 策略 的 是 SELinux 的 钩子 函数 (hooks )， 
为 了 提高 效率 ，SELinux 的 设计 者 在 安全 服务 器 和 钩子 函数 之 间 放 置 了 一 个 缓存 一 一 Access 
Vector Cache。 内 核 代 码 在 系统 调用 函数 中 嵌入 了 对 内 核 安 全 模块 钩子 函数 的 调用 ，SELinux 的 
钩子 函数 会 根据 策略 返回 结果 。 这 个 返回 值 会 影响 系统 调用 成 功 与 否 。 图 7-3 简单 描述 了 
SELinux 的 架构 。 





























































































































































































































security context security context security context 


a 





| 策略 文件 









K| 7-3 SELinux 架构 








强调 一 下 ，SELinux 的 策略 是 允许 策略 ， 访 问 控制 是 白 名 单机 制 ， 没 有 在 策略 中 定义 的 操 
作 都 是 被 禁止 的 ， 即 “法 无 允许 即 禁 止 ” 


734 基本 定义 


1. 客体 类 别 和 操作 

这 部 分 策略 是 内 核 代码 逻辑 的 重复 。 按 照 机 制 和 策略 分 离 的 原则 ， 内 核 代码 实现 机 制 ， 用 
户 编写 策略 。 但 是 SELinux 策略 语言 中 偏偏 有 一 部 分 是 在 重复 内 核 代码 的 逻辑 。 这 部 分 重新 定 
义 了 客体 类 别 和 操作 ， 有 些 不 伦 不 类 ， 因 为 用 户 不 可 能 多 定义 或 少 定义 一 个 客体 类 别 ， 也 不 可 
能 修改 客体 之 上 的 操作 。 


语法 是 : 




























































































class class id [ inherits common set ] [ { perm set } ] 


举例 ; 





class unix stream socket 
inherits socket 
{ 
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connectto 
newconn 
acceptfrom 


) 














上 述 语句 表示 客体 类 unix stream socket 自 通用 操作 集合 socket 中 继承 了 全 部 操作 ， 并 且 












































下 面 再 给 出 通用 操作 集合 的 语法 ; 





























VH 3 个 额外 的 操作 : connectto. newconn. acceptfrom. 


common common id { perm set } 


举例 : 





common socket 

{ 

# inherited from file 
ioctl 
read 
write 
create 
getattr 
setattr 
lock 
relabelfrom 
relabelto 
append 


二 


Socket-specific 
bind 
connect 
listen 
accept 
getopt 
setopt 
shutdown 
recvfrom 
sendto 
recv msg 
send msg 
name bind 


) 

















上 述 语句 中 的 注释 表明 , 套 接 字 操 作 的 前 半 部 分 和 文件 相同 ,后 半 部 分 是 套 接 








的 操作 。 
2. SELinux 用 户 
SELinux 用 户 是 SELinux 安全 上 下 文 
用 户 映射 为 SELinux 用 户 ， 再 将 SELinux 
语法 : 
64 

















字 上 特有 














四 元 组 中 的 第 一 个 成 员 。 SELinux 的 机 制 是 多 
] 户 映射 为 SELinux 角色 。 
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user seuser id roles role id; 


举例 : 





user sysadm u roles { sysadm r ]; 




















SElinux H]/" “sysadm u” 可 以 映射 为 SElinux ffjf& “sysadm r". 

3. 角色 

SELinux 安全 上 下 文 四 元 组 的 第 二 个 成 员 是 角色 。SELinux 机 制 会 将 SELinux 角色 映射 为 
SELinux 类 型 。 

语法 : 








" 











role role id; 





或 者 ， 定 义 角色 的 同时 给 出 关联 的 类 型 : 
role role id types type id; 


举例 : 





role system r; 


role sysadm r; 


roi 


e 
e 

role user r; 
e user r types user t; 
e 


role user r types chfn t; 

















上 述 语句 定义 了 3 个 角色 : system r. sysadm r, user ro H}, user r 可 映射 为 类 型 user t 
和 chfn t. 

一 个 一 个 地 定义 角色 有 些 麻烦 ， 可 以 定义 一 个 共同 的 角色 属性 ， 将 角色 关联 到 角色 属性 ， 
在 后 续 需 要 角色 的 策略 中 使 用 角色 属性 就 可 以 了 。 

语法 : 






























































attribute role attribute id; 








T 


有 了 角色 所 








生 ， 就 可 以 将 以 前 定义 的 角色 关联 到 角色 属性 上 。 








al 
一 

















roleattribute role id attribute id [ ,attribute id ]; 


举例 : 





attribute role admin; 
attribute role net; 
role net admin; 

role sys admin; 

role common user; 


roleattribute net admin admin, net; 
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roleattribute sys admin admin; 
























































上 述 语句 定义 了 3 个 角色 : 网络 管理 员 、 系 统管 理 员 、 普 通 
网 络 。 将 网 络 管理 员 关 联 到 管理 和 网 络 ， 系 统管 理 员 关联 到 管 
4. Hem 





















































HH 




















IP, 2 个 角色 属性 : 管理 和 





SELinux 安全 上 下 文 四 元 组 中 的 第 三 个 成 员 是 类 型 。 类 型 相关 的 定义 有 type、attribute、 


typeattribute、typealias。 
(1) type 


























在 类 型 上 有 类 型 名 字 ， 类 型 属性 ， 可 能 还 有 类 型 别名 。 语 法 
type type id; 
或 者 : 
type type id, attribute id; 
或 者 : 
type type id alias alias id; 
或 者 : 
type type id alias alias id, attribute id; 
举例 : 





type bin t; 


type bin t alias { usr bin sbin }; 








attribute exec t; 

type bin t, exec t; 

attribute can relabelto; 

type setf t alias restorecon t, can relabelto; 
attribute packet t; 

attribute serv packet t; 

type ssh serv packet t, packet t, serv packet t; 





上 述 语句 定义 了 一 个 类 型 “bin_t”， 再 为 它 关 联 两 个 别名 “usr_bin” 和 “sbin”， 




















再 定义 


个 属性 “exec_ t”， 关 联 到 “bin t”。 定 义 属性 “can relabelto”， 在 定义 类 型 “setf t” 的 时 候 关 
联 上 别名 “restorecon t” 和 属性 “can relabelto”。 最 后 ， 在 定义 类 型 “ssh_serv_packet t” 时 赋 














予 类 型 多 个 属性 :“packet_t” 和 “serv_packet t". 
(2) attribute 
语法 : 


attribute attribute id; 





attribute 就 是 “类 型 的 类 型 ” 
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(3) typeattribute 
语法 : 


typeattribute type id attribute id [ ,attribute id ]; 





typeattribute 的 作用 是 为 一 个 以 前 定义 的 类 型 关联 属 怕 
举例 : 





E24 
Iss 
o 








type daemon t; 
attribute domain; 


typeattribute daemon t domain; 


上 述 语句 定义 了 一 个 类 型 “daemon t” 和 一 个 属性 “domain”， 然 后 将 它们 关联 起 来 。 
(4) typealias 
语法 : 


typealias type id alias alias id; 








typealias 的 作用 是 定义 一 个 类 型 的 别名 。 

5. 多 级 安全 

多 级 安全 包含 两 个 元 素 : 敏感 度 (sensitivity〉 和 组 别 (category)。 
(12 sensitivity 

语法 : 





sensitivity identifier; 


或 者 : 





sensitivity sens id alias alias id [ alias id ]; 


举例 : 





sensitivity s0 alias common no secret; 
sensitivity sl alias secret; 


sensitivity s2; 








上 述 语句 定义 了 3 个 级 别 : s0 sl. s2. sO 的 别名 是 common 〈 普 通 ) 和 no_secret〈 无 秘 


; sl 的 别名 是 secret (秘密 ); s2 无 别名 。 


(2) dominance 
dominance 用 于 定义 级 别 之 间 的 “高 低 ” 关 系 。 
语法 : 




















dominance ( sens id ... }; 





举例 : 
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dominance { s0 s1 s2 }; 


s0 级 别 最 低 ，s2 级 别 最 高 。 
(3) category 
语法 : 


category cat id; 


或 者 : 





category cat id alias alias id; 


举例 : 





category c0; 
category cl; 
category c0 alias planning r d; 


category cl alias business; 


上 述 语句 定义 了 两 个 组 别 : cO fl cl. cO 的 别名 是 planning. 〈 规 划 部 ) 和 Td FRX); 
cl 的 别名 是 business (市 场 部 )。 

(4) level 

级 别 (level)〉 定 义 将 前 面 的 敏感 度 Csensitivity) 和 组 别 〈category) 组 合 起 来 。 多 级 安全 
(Multi-Level Security) 中 的 级 别 就 是 下 面 要 介绍 的 级 别 。 

语法 : 


level sens id [ :category id ]; 











其 中 category id 可 以 是 用 “.” 连 接 的 两 个 组 ， 如 c0.c16， 表 示 一 个 闭合 集合 ; 也 可 以 是 用 
“,” 连 接 的 两 个 category, W c21,c36， 表 示 不 连续 的 列表 ; 还 可 以 将 这 两 种 情况 组 合 ， 如 
c0.c16,c21,c36,c45。 
举例 : 


























level s0:c0.c1; 
level s1:c0.c1; 


level s2:c0.c2; 





上 述 语句 表示 敏感 度 s0 和 组 别 cO. cl 关联 ， 敏 感度 sl 和 组 别 c0、cl 关联 ， 敏 感度 s2 和 
组 别 cO. cl. c2 关联 。 
7.3.2 ”安全 上 下 文 定义 

SELinux 的 机 制 要 求 系统 中 所 有 的 主体 和 客体 都 关联 安全 上 下 文 。 系 统 中 的 主体 和 客体 可 
以 分 为 两 类 ， 一 类 是 静态 的 ， 能 跨越 系统 重新 启动 而 保持 一 致 ， 比 如 磁盘 上 的 文件 ， 另 一 类 是 
动态 的 ， 每 次 启动 后 创建 ， 比 如 进程 。 对 于 前 者 ，SELinux 将 安全 上 下 文 存储 在 存储 介质 
文件 的 扩展 属性 中 。 对 于 后 者 ，SELinux 定义 初始 / 缺 省 安全 上 下 文 作为 主体 或 客体 的 安全 上 下 
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文 的 初始 值 。 

1. 初始 安全 上 下 文 

SELinux 在 策略 语言 中 引入 了 sid。 安 全 上 下 文 是 一 个 字符 串 ， 在 内 核 SELinux 代码 中 被 存 
储 在 一 个 表 里 ， 为 了 提高 代码 执行 效率 ， 就 用 表 中 记录 的 序号 来 代表 一 个 安全 上 下 文 。 这 个 记 
录 序 号 就 是 sid。 

SELinux 代码 在 那个 存储 安全 上 下 文 的 表 中 预 留 了 若干 项 ， 这 些 项 就 是 某 些 主体 和 客体 的 
初始 / 缺 省 安全 上 下 文 。 目 前 SELinux WA T 27 项 初始 安全 上 下 文 。 在 代码 中 ， 它 们 的 名 字 是 : 



























































kernel 
security 
unlabeled 
fs 

file 

file labels 
init 

any socket 
port 

netif 
netmsg 

node 

igmp packet 


icmp socket 


tcp socket 
sysctl modprobe 
sysctl 
sysctl fs 
Ssysctl kernel 


Sysctl net 


Sysctl net unix 


Sysctl vm 








sysctl dev 





























kmod 

policy 

scmp packet 

devnull 
回 到 策略 语言 ，sid 策略 有 两 种 格式 : 带 安全 上 下 文 的 和 不 带 安 全 上 下 文 的 。 
语法 : 

sid sid id 


sid sid id context 


sid kernel 


Sid kernel u:r:kernel:sO0 
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sid 为 kernel 的 安全 上 下 文 ， 内 容 为 “u:rkernel:s0”。 

不 带 安全 上 下 文 的 sid 定义 ， 实 际 上 又 是 在 重复 代码 的 逻辑 ，27 个 初始 / 缺 省 安全 上 下 文 ， 
不 能 多 也 不 能 少 。 带 context 的 sid 定义 有 些 意义 ， 就 是 能 给 出 这 些 预 留 sid 对 应 的 安全 上 下 文 ， 
也 就 是 填充 内 核 那 个 安全 上 下 文 表 中 预 留 记录 的 内 容 。 

2. 文件 

这 部 分 策 
E E GEF 















































Ni 











规定 了 一 个 文件 系统 上 的 文件 的 安全 上 下 文 来 自 哪里 ， 共 有 四 个 来 源 : 扩展 属 
)、 主 体 和 文件 系统 运算 、 策 略 规定 值 。 
需要 注意 的 是 ， 这 里 的 文件 的 范畴 比 一 般 意 义 要 大 ， 还 包括 管道 和 套 接 字 。 因 为 在 内 核 的 
代码 逻辑 中 ， 管 道 是 在 特殊 的 文件 系统 pipefs 上 的 文件 ， 而 套 接 字 也 有 一 个 特殊 的 文件 系统 
sockfs 与 之 关联 。 
(1) fs use xattr 


语法 : 

















H D 











H 












































$ ocr 








Up 














fs use xattr fs name fs context; 








这 种 策略 有 两 个 作用 : 一 是 规定 文件 系统 上 的 文件 使 用 扩展 属性 作为 文件 的 安全 上 下 文 ; 
二 是 规定 文件 系统 本 身 的 安全 上 下 文 。 
举例 : 








fs use xattr encfs system u:object r:fs t; 
fs use xattr ext2 system u:object r:fs t; 
fs use xattr ext3 system u:object r:fs t; 


上 述 语 句 规定 encfs. ext2. ext3 文件 系统 的 安全 上 下 文 是 “system_u:object_r:fs t”, HE 
的 文件 使 用 扩展 属性 security.selinux 的 值 作为 安全 上 下 文 。 
(2) fs use task 


语 YA: 























fs use task fs name fs context; 
































这 种 策略 有 两 个 作用 : 一 是 规定 文件 系统 2 使 用 创建 文件 的 进程 的 安全 上 下 文 作为 其 上 的 
文件 的 安全 上 下 文 ， 二 是 规定 了 文件 系统 本 身 的 安全 上 下 文 。 
举例 : 





























fs use task eventpollfs system u:object r:fs t; 
fs use task pipefs system u:object r:fs t; 
fs use task sockfs system u:object r:fs t; 


上 述 语句 规定 eventpollfs、pipefs、sockfs 文件 系统 的 安全 上 下 文 是 “system_u:object r:fs t", 
其 上 的 文件 的 安全 上 下 文 来 自 创 建 进程 的 安全 上 下 文 。 


(3) fs use trans 



































O 这 里 的 文件 系统 与 我 们 日 常 使 用 的 文件 系统 有 一 点 儿 差别 ， 多 出 了 一 些 只 在 内 核 内 部 使 用 的 文件 系统 ， 比 如 sockfs. TE 
/proc/filesystems 中 列 出 了 内 核 支 持 的 全 部 文件 系统 。 
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fs use trans 与 fs use task 类 似 , 区 别 在 于 文件 的 安全 上 下 文 不 单单 来 自 创 建文 件 的 进程 的 


安全 上 下 文 ， 还 有 一 























个 影响 因素 是 文件 系统 本 身 的 安全 上 下 文 ， 最 终结 果 是 二 者 的 运算 结果 。 








fs use trans fs name fs context; 


举例 : 





fs use trans devpts system u:object r:devpts t; 








上 述 语句 规定 devpts 文件 系统 的 安全 上 下 文 是 system u:object r:devpts t, 其 上 文件 的 安全 























上 下 文 来 自 创建 进程 的 安全 上 下 文 和 文件 系统 安全 上 下 文 的 运算 。 




















下 面 列 出 和 运算 相关 的 语句 : 





type rssh devpts t, fs type; 





type transition rssh t devpts t:chr file rssh devpts t; 


上 述 语句 规定 类 型 为 rssh_t 的 进程 在 其 上 创建 的 字符 设备 文件 的 安全 上 下 文 的 类 型 为 


rssh devpts t. 
(4) genfscon 


~ 





genfscon 























当 上 面 这 些 策略 都 不 能 用 时 ， 还 有 最 后 这 个 genfscon. 


fs name partial path fs context 

















文件 系统 和 其 上 的 所 有 文件 都 使 用 同样 的 安全 上 下 文 ， 这 里 有 一 个 特例 ， 如 果 fs. name 是 
proc 的 话 ，partial path 起 作用 ， 其 上 部 分 文件 可 以 有 不 同 的 安全 上 下 文 。 





举例 : 


genfscon 


genfscon 


genfscon 


genfscon 


上 述 语 句 说 明 : 




















msdos / system u:object r:dosfs t 


iso9660 / system u:object r:iso9660 t 


proc / system u:object r:proc t 


proc /sysvipc system u:object r:sysvipc proc t 














msdos 文件 系统 及 其 上 所 有 文件 的 安全 上 下 文 是 system u:object_r:dosfs_t。 




















iso9660 文件 系统 及 




















其 上 所 有 文件 的 安全 上 下 文 是 system_u:object r:iso9660 t. proc 文件 系统 本 
























































身 的 安全 上 下 文 是 system_u:object_rproc_t; proc 文件 系统 中 的 sysvipe 目录 和 sysvipe 目录 之 下 
的 文件 和 目录 的 安全 上 下 文 是 system u:object_r:sysvipe_proc_t; proc 文件 系统 中 其 余 的 文件 和 
目录 的 安全 上 下 文 是 system_u:object rproc t. 





3. 网 络 


























网 络 的 基本 构成 是 节点 、 端 口 和 网 卡 。 





CD 节点 


nodecon 用 来 标记 一 个 IPv4 或 IPv6 节点 。 


nodecon subnet netmask node context 
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举例 : 





nodecon 127.0.0.1 255.255.255.255 system u:object r:lo node t 
nodecon ff00:: ff00:: system u:object r:multicast node t 

















IPv4 本 地 地 址 127.0.0.1 被 赋予 安全 上 下 文 system_ u:object ro node t, IPv6 广播 地 址 ff00:: 
ff00:: 被 赋予 安全 上 下 文 system u:object r:multicast node t. 

(2) 端 

portcon 用 来 标记 一 个 端口 。 


























portcon protocol port number port context 


举例 : 





portcon tcp 20 system u:object r:ftp data port t 





tcp 端口 20 被 赋予 安全 上 下 文 system_ u:object r:ftp data port t。 
(3) 网 卡 
netifcon 被 用 来 标记 网 卡 及 通过 网 卡 的 网 络 包 的 安全 上 下 文 。 









































netifcon netif id netif context packet context 


举例 : 





netifcon eth0 system u:object r:netif t system u:object r:packet t 








规定 eth0 的 安全 上 下 文 是 system u:object rnetif tf， 通 过 eth0 的 网 络 包 的 安全 上 下 文 是 
system u:object r:packet t. 


7.3.3 ”安全 上 下 文 转 换 


如 果 只 有 初始 / 缺 省 安全 上 下 文 ， 则 安全 上 下 文 不 能 变换 ， 那 么 SELinux 的 世界 是 静止 的 ， 
SELinux 的 安全 作用 就 很 有 限 。 所 以 SELinux 的 主体 和 客体 的 安全 上 po po 
因为 SELinux 的 机 制 有 三 个 : 基于 角色 的 访问 控制 、 类 型 增强 、 多 级 安全 ， 下 面 分 机 制 介 绍 安 
全 上 下 文 的 转换 。 

1. 角色 的 转换 

SELinux 用 户 的 转换 没有 对 应 的 策略 语句 。 
角色 转换 的 语法 : 
































































































































allow from role id to role id; 





举例 : 





allow sysadm r secadm r; 



































上 述 语句 表示 允许 系统 管理 员 转换 为 安全 管理 
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角色 转换 的 语法 : 














role transition current role id type id new role id; 


或 者 





role transition current role id type id : class new role id; 


举例 : 





allow unconfined r msg filter r; 





role transition unconfined r sec serv exec t msg filter r; 





























上 述 语句 表示 ， 当 进程 执行 类 型 为 sec_serv_exec t 的 文件 时 ， 进 程 的 角色 由 unconfined r 
转化 为 msg filter r. 

2. 类 型 

类 型 转换 略 复杂 。 包 含 三 种 语法 : 


(1) type transition 














type transition source type target type : class default type; 











type transition 定义 了 当 条 件 满足 时 的 新 类 型 。 这 种 策略 既 用 于 生成 主体 (进程 ) 新 安全 上 
FX, 又 用 于 生成 客体 新 安全 上 下 文 。 
下 面 分 别 举例 。 先 是 主体 : 

















H 











type transition initrc t acct exec t:process acct t; 
allow initrc t acct exec t:file execute; 
allow acct t acct exec t:file entrypoint; 


allow initrc t acct t:process transition; 




















上 述 语句 表示 ， 类 型 initrc_t 的 进程 执行 类 型 为 acct exec t 的 文件 时 ， 执 行 后 进程 的 类 型 
变 为 acct t。 后 三 条 allow 语句 是 为 了 保证 执行 动作 能 够 发 生 ， 不 会 被 内 核 拒绝 。 
再 看 一 个 客体 的 例子 : 











y 











type transition acct_t var log t:file wtmp t; 


allow acct t var log t:dir ( read getattr lock search ioctl add name 





remove name write ]; 


allow acct t wtmp t:file ( create open getattr setattr read write append 





rename link unlink ioctl lock }; 











上 述 语句 表示 ， 类 型 为 acct t 的 进程 在 类 型 为 var log t 的 目录 中 创建 文件 时 ,文件 的 安全 
上 下 文 的 类 型 为 wtmp_t。 第 一 条 allow 保证 了 进程 可 以 在 类 型 为 var log t 的 目录 中 创建 文件 ， 
第 二 条 allow 保证 进程 可 以 访问 类 型 为 wtmp t 的 文件 。 
(2) type change 
安全 上 下 文中 类 型 还 可 以 改变 ， 改 变 成 什么 值 



























































type change 策略 规定 : 
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type change source type target type : class change type; 


举例 : 








type change auditadm t sysadm devpts t:chr file auditadm devpts t; 











上 述 语句 表示 , 类 型 为 auditadm t 的 进程 可 以 将 类 型 为 sysadm_devpts t 的 字符 设备 文件 的 
类 型 改变 为 auditadm devpts t. 

type change 语句 用 于 规定 主体 和 客体 的 类 型 可 以 改变 为 什么 值 。 进程 在 运行 过 程 中 可 以 将 
进程 自身 或 某 一 客体 的 类 型 改变 , 改变 成 什么 必须 满足 type. change 语句 的 规定 。type_transition 
语句 作用 于 两 种 场景 。 第 一 个 场景 是 进程 创建 新 客体 时 , 新 客体 的 类 型 来 自 type. transition 的 规 
定 。 第 二 个 场景 是 进程 执行 execve 系统 调用 后 ， 进 程 的 新 类 型 来 自 type_transition 的 定义 。 

(3) type member 

type member 的 常用 场景 是 在 用 户 登 录 时 ， 登 录 服 务 根 据 用 户 类 型 给 予 用 户 家 目录 
Chome/user). 不 同 的 类 型 。 

语法 : 
















































































































































































type member source type target type : class member type; 


举例 : 


type member sysadm t user home dir t:dir adm home dir t; 








上 述 语 句 表 示 ， 类 型 为 “sysadm _t” 的 进程 的 家 目录 的 类 型 为 “adm home dir t". 
3. 多 级 安全 
在 叙述 多 级 安全 转换 策略 之 前 先 要 描述 一 下 MLS B range 定义 。 
语法 : 




















low level 


或 者 





low level - high level 


range transition 策略 的 定义 如 下 ; 





range transition source type target type new range; 


或 者 








range transition source type target type : class new range; 





这 种 命令 主要 被 init 进程 或 别 的 管理 进程 使 用 ， 以 保证 它 繁 衍 的 子 进程 工作 的 安全 上 下 文 
中 的 MLS 处 在 正确 的 范围 内 。 举 例 : 
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range transition initrc t auditd exec t:process s15:c0.c255; 




















上 述 语句 表示 ，init 进程 生成 audit 服务 进程 时 ，audit 进程 的 安全 上 下 文中 的 多 级 安全 级 别 
处 于 系统 最 高 级 别 。 
7.3.4 ”访问 控制 

访问 控制 是 SELinux 最 基本 的 功能 。SELinux 的 客体 类 别 、 操 作 、 安 全 上 上 下文、 安全 上 下 
文 转换 都 是 为 访问 控制 服务 的 。 

SELinux 的 访问 控制 策略 又 叫 存 取 向 量规 则 (Access Vector Rules)。 这 类 策略 在 SELinux 
策略 文件 中 使 用 得 最 为 频繁 。 语 法 为 : 





















































rule name source type target type : class perm set; 




















可 以 看 到 ， 这 类 策略 定义 只 和 类 型 相关 。 所 以 在 SELinux 的 三 种 机 制 (基于 角色 的 访问 控 
制 、 类 型 增强 、 多 级 安全 ) 中 类 型 增强 最 重要 。 

访问 控制 策略 中 的 rue name 有 以 下 4 个 值 : 

C12 allow 

允许 源 域 (source type) 对 目的 域 (target type) 上 的 类 (class). 进行 操作 (perm_set)。 举 例 : 














allow initrc t acct exec t:file ( getattr read execute ] 


(2) dontaudit 
停止 将 拒绝 访问 消息 写 入 审计 日 志 。 缺 省 情况 下 ， 拒 绝 访问 会 被 写 入 审计 日 志 ， 人 允许 访问 
消息 则 不 会 。 举 例 : 









































dontaudit traceroute t ( port type -Port t ]:tcp socketname bind; 


(3) auditallow 
将 允许 访问 消息 写 入 审计 日 志 。 举 例 : 




















auditallow kernel self:capability ( sys rawio mknod ]; 


(4) neverallow 
指定 不 能 产生 什么 样 的 allow 策略 。neverallow 只 在 策略 编译 过 程 中 有 效 ， 并 不 在 运行 中 9 
Ah. AS. 




















un 

















neverallow ( domain -mmap low domain type } self:memprotect mmap zero; 











s 














名 





T 


其 中 策略 文件 出 现 最 多 的 是 allow。SELinux 是 基于 “和 白 名 单 ” 的 ， 像 neverallow 这 种 黑 
单 策略 只 在 编译 过 程 中 生效 ， 用 于 策略 检查 。 
7.3.5 ”访问 控制 的 限制 和 条 件 
有 了 前 面 介绍 的 访问 控制 策略 ，SELinux 已 经 可 以 完成 访问 控制 工作 了 。 但 SELinux 的 设 
计 者 觉得 还 不 够 ， 又 引入 了 限制 语句 和 条 件 语句 。 在 限制 语句 和 条 件 语句 中 ， 四 元 组 中 的 类 型 
75 
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之 外 的 三 个 成 员 也 可 以 起 作用 。 
1. 限制 
限制 (Constrain〉 的 语法 是 : 





constrain class perm set expression; 








中 expression 的 语法 是 : 


N 
4 


expression : ( expression ) 

not expression 

expression and expression 
expression or expression 
ul op u2 

ole op r2 

p-:E2 

p names 

p names 


p names 


H 
NO 上 


p names 





p names 





H 
Qu OUO 29 9 70. Qc 


p names 








其 中 ul、rl、tl 指 源 端 (主体 ) 的 SELinux H. AE, 25878, u2. r2. C 指 目的 端 〈 客 
体 ) 的 SELinux 用 户 、 角 色 、 类 型 。op 包含 两 个 值 “==” 和 “!=” role op 包含 “==” 和 “!=”。 
names 就 是 一 个 或 多 个 名 字 。 







































































names : name | { name list } 
name list : name | name list name 
举例 : 
constrain process transition (ul == u2 
or 
(tl--can change process identity andt2--process user target) 
or 
(tl--cron source domainand (t2 == cron job domainor u2 == system u)) 
or 
( t1 == can system change and u2 == system u ) 
or 
( tl == process uncond exempt ) ); 
2. 条 件 
为 了 进一步 增加 灵活 性 ，SELinux 在 策略 中 引入 了 布尔 变量 和 条 件 分 文 。 这 也 增加 了 复 
杂 性 。 
(1) bool 
语法 很 简单 : 
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bool bool id default value; 


举例 : 





bool allow execheap false; 


(2) if 
通过 证 语句 内 核 可 以 根据 布尔 变量 关闭 或 启用 部 分 策略 。 语 法 如 下 : 
































if (conditional expression) ( true list ) [ else{ false list } ] 














其 中 conditional expression 可 以 包含 布尔 常量 (true 或 false)、 一 个 或 多 个 已 定义 的 布尔 变 
量 ， 可 以 使 用 的 布尔 运算 符 包 括 &&、、^、!、==、!=。 






































bool allow execmem false; 
if(allow execmem) { 
allow sysadm t self:process execmem; 


) 


3. 多 级 安全 限制 

SELinux 安全 上 下 文 四 元 组 中 的 SELinux 用 户 和 角色 有 两 条 途径 为 SELinux 访问 控制 做 贡 
献 。 第 一 条 路 径 是 SELinux 用 户 映 射 为 角色 ， 角 色 了 映射 为 类 型 ， 第 二 条 路 径 是 在 限制 策略 中 起 
作用 。 多 级 安全 为 访问 控制 做 贡献 只 有 一 条 路 径 ， 就 是 多 级 安全 限制 策略 。 
多 级 安全 限制 策略 语句 是 mlsconstrain。mlsconstrain 和 constrain 类 似 ， 也 是 对 客体 对 象 施 
加 额外 的 检查 。 语 法 如 下 : 

































































mlsconstrain class perm set expression; 








中 expression 的 语法 是 : 


N 
4 


expression : ( expression ) 

not expression 

expression and expression 
expression or expression 


| op u2 


PP cd HR Eg 
B 
o 
0 
号 
[0] 
o 
O 
o 
N 











N 
" 
o 
U 
3 
| n 
o 
Oo 
E 
N 





c 
Oo 
' 
5 
Im 
3 
[D 
[0] 





c 
N 
O 

"'Ü 
J 
w 
3 
M 
[o 
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| rl op names 
| r2 op names 
| tl op names 
| 


t2 op names 

















其 中 ul、rl、tl、11、hl 指 源 端 〈 主 体 ) 安全 上 下 文中 的 SELinux 用 户 、 角 色 、 类 型 、 多 
级 安全 中 的 低级 别 、 多 级 安全 中 的 高 级 别 。u2、r12、 世 、12、h2 指 目的 端 (客体 ) 安全 上 下 文 
中 的 SELinux 用 户 、 和 角色、 类 型 、 多 级 安全 中 的 低级 别 、 多 级 安全 中 的 高 级 别 。op 包含 == 和 !=。 
role mls op 包含 ==、!=、eq、dom、domby、incomp。names 的 定义 为 : 









































names : name | { name list } 


name list : name | name list name 


举例 : 





mlsconstrain dir search 
( 11 dom 12 ) or 


( 

(( t1 == mlsfilereadtoclr ) and ( h1 dom 12 )) or 
( t1 == mlsfileread ) or 

( t2 == mlstrustedobject )); 


TA 伪 文 件 系统 的 含义 


UNIX/Linux 系统 中 的 文件 本 来 是 用 来 存储 数据 的 , 文件 本 来 都 对 应 着 一 块 存储 区 域 。 后 来 
随 着 系统 开发 的 深入 ，UNIX/Linux 内 核 开发 人 员 引 入 了 一 种 特殊 的 文件 ， 这 种 文件 和 内 核 中 的 
某 个 或 菜 些 变量 相关 联 。 内 核 为 这 种 文件 提供 特殊 的 读 写 函数 。 用 户 态 进程 读 这 种 文件 时 ， 内 
核 向 进程 返回 内 核 中 变量 的 值 ， 用 户 态 进程 写 这 种 文件 时 ， 内 核 会 根据 进程 的 输入 改变 内 核 中 
变量 的 值 。 

这 种 文件 的 存在 不 是 为 了 存储 数据 ,而 是 为 了 提供 一 个 内 核 和 用 户 态 进程 之 间 的 便捷 接口 。 
有 些 书 称 这 种 文件 为 虚拟 文件 ， 称 这 种 文件 所 在 的 文件 系统 为 虚拟 文件 系统 。 虚 拟 文件 系统 的 
英文 是 “Virtual File System”, EM Linux 文件 系统 中 一 个 现 有 的 术语 冲突 ， 因 此 本 书 使 用 伪 文 
件 和 伪 文 件 系 统 这 两 个 术语 。 伪 文件 系统 的 例子 有 proc 文件 系统 和 sys 文件 系统 。 


7.5 SELinux 相关 的 伪 文 件 系 统 


SELinux 选择 伪 文 件 接口 作为 内 核 和 用 户 态 进 程 的 接口 。SELinux 使 用 了 两 种 伪 文 件 系 统 ， 
一 种 是 SELinux 创造 的 selinuxf， 另 一 种 是 proc 文件 系统 。 





























































































































































































































7.5.1 selinuxfs 
在 Linux 系统 中 创造 一 种 新 的 文件 系统 是 一 件 相 对 容易 的 事 。 而 类 似 proc 和 sys 这 样 的 伪 


文件 系统 的 基本 作用 就 是 作为 内 核 和 用 户 态 进程 的 接口 ， 由 于 它们 的 存在 ，Linux 的 系统 调用 
数量 没有 呈现 爆炸 式 的 增长 。SELinux 创造 的 伪 文 件 系统 selinuxfs 的 作用 是 让 用 户 态 进程 管理 
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内 核 中 的 SELinux。 普 通 开 发 人 员 一 般 不 月 
je FAHEFA selinuxf 中 的 内 容 和 作用 。 
H open) selinuxfs 之 上 的 文件 时 ，SELinux 会 判断 进程 对 文件 





对 selinuxfs 的 使 





当 用 户 态 进程 打 















































(系统 调 朋 














客体 是 否 有 读 / 写 操作 许可 。 当 进程 读 (系统 调用 read 或 写 (系统 调用 write) 文件 时 ， 如 果 
这 个 文件 和 SELinux 安全 客体 有 关联 的 话 ，SELinux 会 判断 进程 是 否 有 安全 客体 上 的 相关 操作 








许可 。 


selinuxfs 中 包含 的 文件 




















LÆ 7-3。 




















日 关心 selinuxfs， 因 为 SELinux 提供 的 库 函 数 封装 了 
































































































































表 7-3 selinuxfs 文件 
x ff 名 fii pas 
于 计算 访问 决策 ， 写 入 源 安全 上 下 文 、 目 的 安全 上 下 文 、 目 的 (客体 ) 类 型 ， 读 出 允许 
access 的 操作 等 信息 。 读 写 此 文件 要 求 security {compute_av} 操 作 许 可 ， 即 进程 对 “安全 ”客体 具 
备 compute av 操作 许可 ， 下 同 
在 执行 mmap 和 mprotect 系统 调用 时 ， 值 为 0 时 执行 来 自 内 核 的 检验 模式 , 值 为 1 时 执行 
来 自 应 用 的 检验 模式 。 写 此 文件 需要 security {setcheckreqprot} 操 作 许 可 。 内 核 检验 模式 的 含 
checkreqprot X : 


\ 行 操作 




















3 核 在 某 些 情况 下 ， 将 读 操作 和 执行 操作 联系 起 来 ， 用 户 申请 了 读 操作 ， 内 核 会 判断 是 














commit pending bools 


是 
否 同时 允许 读 操 作 和 
文件 内 容 为 非 0 整数 时 ， 将 新 的 SELinux 布尔 值 ( 通 过 boolean 目录 中 的 伪 文 件 设置 ) 设 
置 到 内 核 的 策略 库 之 中 。 写 此 文件 要 求 security {setbool} 操 作 许 可 












































来 检查 安全 上 下 文 的 合法 1 



































性 。 写 入 一 个 安全 上 下 文 的 字符 串 ， 如 果 是 非法 的 ，write SR 



























































didi 作 返 回 错误 。 写 此 文件 需要 security {fcheck_context} 操 作 许 可 
于 计算 新 的 安全 上 下 文 ， 写 入 源 安全 上 下 文 、 目 的 安全 上 下 文 、 目 的 《客体 ) 类 别 和 文 
create 件 名 《可 选 ) ， 读 回 内 核 根 据 策略 库 计算 而 得 到 的 新 安全 上 下 文 。 写 文件 要 求 security 


H 
Ícompute create) 操作 











deny unknown 





reject unknown 


deny unknown 为 




















于 让 用 户 态 应 

















Bu, WE 











jJ 核 策略 库 中 reject unknown 和 deny unknown 的 值 。 








策略 允许 对 不 认识 的 客体 类 型 的 访问 请 求 ，deny_unknown 为 真 
时 ， 内 核 策略 拒绝 对 不 认识 的 客体 类 别 的 任何 访问 请 求 。reject_unknown 为 真 时 ， 内 核 根本 



























































































































































































































































不 允许 加 载 包 含 它 不 认识 的 客体 类 型 的 策略 进入 内 核 策略 库 
disable 写 入 非 0 整数 ,关闭 SELinux 功能 关闭 SELinux 必须 在 SELinux 8t Jii .— H. SELinux 
策略 加 载 完 成 ， 就 不 能 关闭 SELinux 了 
entone 读 取 或 改变 SELinux enforcing 状态 ，0 对 应 permissive 状态 ， 非 0 对 应 enforcing 状态 。 写 
文件 要 求 security {setenforce} 操 作 许 可 
load 写 入 内 核 策略 库 ， 写 此 文件 要 求 security {load_policy} 操 作 许 可 
ee 于 计算 一 个 新 的 安全 上 下 文 。 写 入 源 安全 上 下 文 、 目 的 安全 上 下 文 、 目 的 (客体 ) 类 别 ， 
读 回 新 的 安全 上 下 文 。 写 入 需要 security {fcompute member} 操 作 许 可 
mls 读 取 当前 mls 状态 ，1 表示 mls 生效 ，0 表示 mls 无 效 
policy 读 出 内 核 策 略 库 中 的 全 部 策略 (以 二 进 制 形式 ) ， 要 求 security ( read. policy } 操 作 许 可 
policyvers 读 取 当前 内 核 SELinux 版 本 号 
relabel 于 计算 一 个 新 的 安全 上 下 文 。 写 入 源 安全 上 下 文 、 目 的 安全 上 下 文 、 目 的 〈 客 体 ) 类 别 ， 
读 回 新 的 安全 上 下 文 。 写 入 需要 security (compute relabel} 操 作 许 可 
i 写 入 安全 上 下 文 和 用 户 名 ， 读 回 若 干 个 相关 联 的 安全 上 下 文 。 写 入 要 求 security 
Ícompute user) 操作 许可 
"T 读 出 SELinux 若干 信息 ， 比 如 版 本 号 、enforcing AS. deny unknown 值 等 ， 不 过 这 些 信 








ES 

















入 源 安全 上 下 文 、 目 的 安全 上 下 文 、 客 体 类 别 ， 读 








Me EBERT 











直 得 仔细 分 析 的 是 create, member 和 relabel 这 三 个 文件 。 这 三 个 文件 的 用 法 相同 ， 都 是 写 











加 新 的 安全 上 下 文 。 实 际 上 它们 和 7.3.3 节 讲 





述 的 转换 策略 有 关 。create 文件 对 应 的 是 type transition 策略 规则 ，member 对 应 的 是 type member 
策略 规则 ，relabel 对 应 的 是 type change 策略 规则 。 


create 文件 的 一 种 用 法 是 用 来 参与 制定 进 
新 的 安全 上 下 文 ， 再 和 
member 文件 的 用 法 




















| 用 7.5.2 "B3 









































程 的 安全 上 下 文 的 。 进 程 先 利用 create 文件 得 到 
































F 述 的 /proc 文件 接口 修改 进程 的 某 个 安全 上 下 文 。 
较 罕 见 。 在 管理 用 户 登 录 的 pam 软件 中 ， 可 能 会 为 不 同 的 用 户 分 本 
























































Cu 
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不 同 的 /tmp H 


软件 会 利用 selinuxfs HJ member 文 伯 
relabel 文人 
此 外 ，selinuxfs ! 
































录 ， 这 些 /tmp 

















录 存 在 于 不 同 的 文人 


系统 命名 空间 ， 
务 , 所 以 也 会 有 不 同 的 安全 上 下 文 。 看 起 来 所 有 这 些 /tmp 








, 








因为 它们 为 不 同 的 用 户 服 
目录 部 是 一 类 ,实际 又 有 所 不 同 。pam 


















































录 ， 见 表 7-4。 








查询 某 个 /tmp 的 安全 .| 
F 的 使 用 例子 是 ty， 用 户 登 录 后 ， 系 统 会 改变 月 
还 有 几 个 目 





EFX. 
户 所 使 月 














HS tty 的 安全 上 下 文 。 






























































































































































表 7-4 selinuxfs 目录 
目 录 名 fü 述 
avc 放置 一 些 关 于 AVC (Access Vector Rule, SELinux 的 访问 控制 策略 ) 的 统计 信息 
其 中 每 个 文件 代表 一 个 SELinux 布尔 变量 。 改 写 文件 不 需要 特殊 操作 许可 ， 因 为 布尔 值 起 作用 ， 

即 进 入 内 核 策略 库 ， 需 要 通过 commit pending bools 接 

其 中 每 个 子 目录 代表 一 个 客体 类 型 ， 每 个 子 目录 下 又 有 一 个 文件 index， 值 为 该 类 型 在 策略 库 中 
的 编号 ; 一 个 子 目 录 perms， 其 中 每 个 文件 是 允许 的 操作 

initial contexts 其 中 每 个 文件 代表 一 个 初始 安全 上 下 文 
policy capabilities 其 中 每 个 文件 代表 一 个 SELinux 可 选 模块 的 状态 


7.5.2 proc 


SELinux 为 每 个 进程 在 proc 文件 系统 下 增加 了 一 个 目 















































录 “attr”。 它 的 主要 使 





昌 者 仍然 





















































SELinux 在 用 户 态 空间 的 库 函数 。 目 录 中 的 文件 见 表 7-5. 
表 7-5 SELinux 在 /proc/[pid]/attr 中 增加 的 文件 

current 进程 当前 的 安全 上 下 文 
exec 进程 用 于 exec 的 安全 上 下 文 

iid 进程 用 于 创建 文件 的 安全 上 下 文 

keycreate 进程 用 于 创建 内 核 密 钥 的 安全 上 下 文 
a 进程 的 前 一 个 安全 上 下 文 

Sockcreate 进程 用 于 创建 socket 的 安全 上 下 文 


除了 文件 prev 之 外 ， 这 些 文件 都 是 可 读 可 写 的 。 当 然 ， 写 文人 


的 允许 。 


Bh p 


I^ 一 口 


7.0 


PES 





机 





SELinux 的 第 


SELinux 
随 着 时 间 的 














ER. 











| SELinux， 作 者 想到 的 是 



































W^: 权威 和 复杂 。SELinux 的 型 
BEJ PAZ nS Linux 系统 的 方方面面 ， 这 个 理想 实现 了 。SELinux 之 后 的 4 个 安全 模块 都 没有 
做 到 全 系统 覆盖 。 





操作 需要 SELinux 策略 





EE 想 是 让 SELinux 的 安全 


























个 











TH 








il 











的 开发 者 认为 











里 想 是 让 Linux 系统 中 所 有 
学 习 SELinux， 使 用 SELinux。 这 个 理想 没有 实现 。 














自己 努力 

















TH. 








] 率 并 没有 


增加 。SELinux 的 








| 入 











的 了 





开发 人 员 、 管 
EDAX EH SELinux KEZ T -o 
地 开发 了 一 个 完美 的 安全 系统 ， 但 是 发 现 大 家 不 用 ， 而 且 


理 人 员 和 使 用 人 员 都 自觉 地 



































^N 





发 者 Dan Walsh 为 此 制作 了 一 个 网 站 


Chttp:/stopdisablingselinux.com/) 鼓励 人 们 使 用 SELinux。 
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78 73$ SELinux 




















作者 认为 SELinux 的 复杂 正 来 源 于 它 的 理想 。SELinux 太 想 从 根本 上 解决 Linux 的 安全 问 
题 ， 它 引入 了 一 套 机 制 ， 但 这 套 机 制 和 UNIX/Linux 原 有 的 概念 和 机 制 完 全 不 同 。 这 无 疑 增 加 
了 SELinux 的 学 习 难 度 。 

SELinux 的 设计 理念 似乎 是 大 而 全 ， 它 的 机 制 包含 : 基于 角色 的 访问 控制 、 类 型 增强 、 
多 级 安全 。 而 UNIX/Linux 的 理念 是 一 个 模块 只 做 一 件 事 。 像 SELinux 这 样 的 设计 ， 在 
UNIX/Linux 中 是 不 多 的 。 
















































































7.7 参考 资料 


读者 可 参考 以 下 资料 。 

Richard Haines. The SELinux Notebook-The Foundations, 2014. http://freecomputerbooks.com/ 
books/The SELinux Notebook-4th Edition.pdf 

http://selinuxproject.org/page/Main Page 





习题 











1. selinuxfs 中 的 disable 文件 似乎 没有 对 应 安全 相关 的 操作 。SELinux 对 于 关闭 自身 这 个 操 
作 没 有 做 额外 的 保护 ? 

2. 查看 代码 ， 列 出 写 文件 /proc/[pidj/attr/exec 所 需 的 所 有 条 件 。 提 示 : 包括 自主 访问 控制 
的 约束 ， 比 如 进程 的 euid 为 0， 也 包括 本 章 讲述 的 SELinux 的 约束 。 

3. 使 用 SELinux 策略 语言 表达 允许 类 型 为 A 的 进程 执行 文件 b， 执 行 后 进程 的 类 型 变 
为 B， 需 要 至 少儿 条 策略 语句 ? 

4. SELinux 现 有 机 制 包括 基于 角色 的 访问 控制 、 类 型 增强 和 多 级 安全 。 如 果 去 掉 基 于 
角色 的 访问 控制 和 多 级 安全 , 只 保留 类 型 增强 , 那么 可 以 删除 哪些 类 策略 语言 ? 如 果 只 保留 
基于 角色 的 访问 控制 ， 那 么 又 该 删除 哪些 类 策略 语言 ， 调 整 哪些 类 策略 语言 ? 

5. SELinux 为 了 控制 进程 的 能 力 引 入 了 两 个 客体 类 别 : capability 和 capability2。 这 么 
做 的 原因 是 什么 ”如 果 要 改进 ， 可 以 怎么 改 ? 
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SMACK 是 “Simplified Mandatory Access Control Kernel” 的 缩写 。 
目前 在 Intel 从 事 手 机 操作 系统 Tizen 的 安全 
日 进入 了 Linux 2.6.25， 是 继 SELinux 

SMACK 的 出 现在 Linux 内 核 社区 引发 了 很 大 的 争论 。 
AT Linux 内 核 主 线 之 后 并 未 能 如 预想 的 那样 为 
因 SELinux 策略 配置 











Schaufler, 














Md 
ES 


理 员 在 发 现 系 统 


SMACK 

















二 后 





第 二 个 进入 Linux 


争 














它 的 作者 是 Casey 
FELE. SMACK T 2008 年 4 
内 核 主 线 的 安全 模块 。 

论 的 背景 是 SELinux 在 2003 年 进 


j] 16 




















d 
个 




















大 系统 管理 员 和 应 用 开发 者 到 





























问题 而 不 能 正常 运行 时 ,往往 是 简单 地 关闭 









































而 不 是 去 调试 和 各 


BM SELinux 策 





发 应 用 相关 的 SELinux 策略 。Linux 发 行 版 ， 比 如 
发 SELinux 策略 。 这 就 造成 了 SELinux 



































应 用 
SELinux 常常 阻碍 应 用 的 正常 运行 。 





面 对 复杂 的 系统 ， 系 统管 理 员 没有 能 力 为 系统 中 各 个 应 











As 


。 应 用 开发 者 的 开发 


E 解 和 接受 。 
SELinux 功能 ， 


Tij 




















[ 作 只 包括 












































IN. IIS 


UER 














Mte TI 


















































发 应 用 的 功能 ， 不 包括 开 
RedHat， 面 对 众多 的 应 用 只 能 为 一 部 分 核心 
]， 用 户 在 运行 应 用 时 ， 





调整 SELinux 策略 。 几 乎 没有 















































户 面 对 SELinux 引起 的 “故障 ”， 


不 现实 的 。 怎 


UNI 








管理 员 能 够 完全 理解 SELinux 系统 的 各 方面 。 
XH] SELinux 策略 。 他 们 通常 的 抱怨 是 SELinux 太 复 杂 了 ， 






















































































么 办 ? 一 种 解决 办 法 是 强制 


















































应 用 开发 者 没有 精力 ， 也 没有 意愿 开发 应 用 相 

法 掌握 。 普 通用 户 呢 ? 普通 用 

通常 是 束手无策 。 指 望 普通 用 户 读 懂 SELinux 的 错误 日 志 是 
全 行 ， 在 内 核 中 彻底 去 除 LSM 机 制 ， 让 SELinux 机 





制 无 法 回避 地 成 为 内 核 中 不 可 删除 的 一 部 分 。 让 所 有 的 Linux 内 核 开 发 人 员 、Linux 应 用 开发 
An, Linux 系统 管理 员 以 及 Linux 用 户 都 必须 去 适应 SELinux， 学 习 它 ， 掌 握 它 。Linux 内 




















核 安全 子 系统 负责 人 James Morris 的 观点 很 有 代表 性 9。 他 认为 ， 内 核 安全 
内 核 开 发 队伍 的 一 等 公民 ， 就 要 消灭 LSM 机 4 


被 忽视 。 


A — 










































































+ 出 























SMACK 的 出 现 让 SELinux 的 











发 者 和 拥护 者 备 受 打击 。 











BJ, ib SELinux 不 可 替代 ， 让 内 核 安全 代码 不 能 


第 二 种 解决 方法 是 既然 LSM 机 制 的 目的 是 允许 多 个 安全 模块 并 存 ， 既 然 SELinux 的 主要 
问题 是 复杂 难 用 (至 少 表 面 上 看 起 来 是 )， 屠 就 设 1 
替代 品 。SMACK 就 是 循 着 这 个 思路 而 产生 的 。 


种 简单 的 安全 模块 来 作为 SELinux 的 


它 不 仅 动摇 了 SELinux 的 地 位 ， 





而 且 让 SELinux 开发 团队 的 理想 更 加 难以 实现 。 有 了 SMACK， 内 核 安全 开发 人 员 还 要 继续 作 





Linux 内 核 开 发 社 











区 的 二 等 公民 ,Linux 应 用 的 三 








fF 发 者 会 继续 忽视 SELinux, 而 不 是 学 习 SELinux. 


面 对 SMACK, SELinux 开发 者 的 自然 反应 就 是 阻挠 SMACK 进入 Linux 内 核 主线 。 而 SMACK 

















的 开发 者 Casey Schaufler 偏偏 是 
个 重量 级 人 物 站 出 来 支持 SMACK, 
“我 不 
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EREE. ERRER RW A EAE EE h 





个 不 届 不 挠 的 人 ， 他 一 次 又 一 次 地 提交 自己 的 作品 。 这 时 两 


^ — AN. EL 


第 一 个 是 Andrew Morton, filii: 


























好 ， 但 是 似乎 
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SMACK 

















SELinux 可 以 有 相同 的 功能 。 将 上 面 那 个 “但 是 ”作为 不 接受 SMACK 的 理由 对 我 而 言 有 些 





困难 。 我 更 倾向 于 接受 SMACK， 然 后 看 大 家 是 否 用 它 。?” 





























Andrew Morton 虽然 表示 SMACK 在 功能 上 并 没有 超越 SELinux， 但 是 明确 表示 倾向 于 将 




















SMACK 纳入 Linux 内 核 主线 。 
这 还 不 够 。 第 二 个 重量 级 人 物 站 了 出 来 ， 这 个 人 是 Linux 的 “仁慈 的 独裁 者 ” 




















Linus 














Torvalds。 这 次 的 邮件 要 “刺激 ”得 多 2。 邮 件 大 意 是 调度 算法 是 “ 硬 科 学 ” 而 安全 不 是 “ 硬 
科学 ” 因为 安全 无 法 定量 地 度量 。 尽管 Stephen Smalley 争辩 说 SMACK 能 做 的 事 只 是 SELinux 
的 一 个 子 集 。 但 是 Linus Torvalds 关心 的 根本 不 是 具体 的 安全 功能 ， 他 要 用 SMACK 的 进入 主 
线 来 保留 LSM 机制， 改变 SELinux 一 家 独 大 的 局 面 。 大 佬 一 锤 定 音 ，SMACK 进入 Linux 内 核 

































































主线 ! 
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SMACK 的 强制 访问 控制 机 制 是 类 型 增强 (Type Enforcement)。 与 SELinux 不 同 ，SMACK 


















































的 工作 机 制 只 有 类 型 增强 ， 没 有 基于 角色 的 访问 控制 和 多 级 安全 。 因 此 它 更 简单 。 
类 型 在 SMACK 中 的 体现 是 标签 。SMACK 的 策略 语句 形式 是 : 








subjectlabel objectlabel access 























这 条 语句 规定 主体 可 以 对 客体 进行 什么 样 的 操作 。 主 体 指 的 是 进程 ， 主 体 标 签 就 好 














E 内 核 


ini: 
































理 进程 的 数据 结构 task. struct ! 


include/linux/sched.h 


struct task struct { 


/* process credentials */ 


const struct cred rcu *real cred; /* objective and real subjective task 


* credentials (COW) */ 





const struct cred rcu *cred; /* effective (overridable) subjective task 


* credentials (COW) */ 
l 
include/linux/cred.h 


struct cred { 


#ifdef CONFIG SECURITY 
void *security; /* subjective LSM security */ 
fendif 





) 











结构 cred 中 的 security 指针 会 指向 SMACK 定义 的 结构 task. smack 的 实例 。 




















在 SMACK 中 ， 客 体 包 含 进 程 、 文 件 、 进 程 间 通 信 、 套 接 字 、 密 钥 等 。 进 程 的 标签 、 

















[e http://lwn.net/Articles/252589/ 
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Linux 内 核 安全 模块 深入 剖析 

















间 通 信 的 标签 和 密 钥 的 标签 都 来 自 色 
展 属性 。 


一 






























































建 它 们 的 进程 的 标签 。 文 件 的 标签 和 套 接 字 的 标签 来 自打 














SMACK 的 操作 种 类 比 SELinux 少 很 多 。SMACK 的 操作 不 区 分 客体 类 型 ， 所 有 客体 的 操 
都 一 样 ， 只 有 6 种 : 读 GO. 5 (w)、 执 行 (x)、 追 加 ah EE (t)、 锁 COD. XX 6 种 访 
问 方式 的 原始 语义 来 自 文 件 ， 读 、 写 、 执 行 、 锁 都 很 好 理解 。 变 形 Ctransmute) 是 SMACK 的 
































1 造 ， 它 的 来 源 是 由 一 个 问题 引 来 的 ， 创 建 一 个 新 文件 时 ， 新 文件 的 安全 标签 来 自 哪里 ? 有 
























































的 做 法 是 混合 这 三 个 选择 。 当 新 文件 被 创建 时 ， 新 文件 的 安全 标签 是 ; 

















CD. 如 果 新 文件 /目录 所 在 目录 的 扩展 属性 SMACK64TRANSMUTE 的 值 为 “TRUE” 3f 


个 选择 , 一 、 由 安全 策略 规定 ; 二 、 来 自 创 建文 件 的 进程 ; 三 、 来自 新 文件 所 在 的 目录 。SMACK 















































且 有 策略 允许 当前 进程 对 目录 的 “w” 和 “t” 操 作 ， 那 么 新 文件 /目录 的 安全 标签 的 值 是 目录 的 




















安全 标签 。 如 果 创 建 的 是 目录 ， 那 么 此 新 目录 的 SMACK64TRANSMUTE 值 也 为 TRUE. 
(2) 如 果 新 文件 /目录 所 在 目录 没有 扩展 属性 SMACK64TRANSMUTE ， 或 者 












































SMACK64TRANSMUTE 值 不 为 “TRUE”， 那么 新 文件 /目录 的 安全 标签 的 值 是 当前 进程 的 安全 
































标签 。 























(3) 如 果 没有 策略 允许 当前 进程 对 目录 的 “w” 和 “t” E WAF 
的 值 是 当前 进程 的 安全 标签 。 



































对 于 非 文件 客体 ， 读 和 写 操 作 大 多 很 容易 映射 。 但 也 有 不 那么 直观 的 ， 比 如 网 络 通 信 ， 通 























信 双 方 交 换 数据 包 是 双向 的 ， 谁 是 读 谁 是 号 呢 ? SMACK 的 解决 方法 是 : 


























端 是 否 有 对 服务 器 端的 写 操作 许可 。 


83 工作 机 制 

















[文件 /目录 的 安全 标签 


























对 于 TCP， 在 客户 端 





链接 时 检查 客户 端 是 否 有 对 服务 器 端的 写 操作 许可 ; 对 于 UDP, 在 客户 端 每 次 发 包 时 判断 客户 








“类 型 增强 ”的 核心 问题 有 两 个 : 一 个 是 类 型 内 的 操作 许可 ,在 SMACK 中 就 是 允许 带 有 XX 
标签 的 主体 对 带 有 YY 标签 的 客体 进行 Z 操作 ; 另 一 个 是 类 型 转换 , E SMACK 中 就 是 标签 的 初 
































始 值 是 什么 ， 在 什么 情况 下 可 以 改变 成 什么 值 。 
8.3.1 操作 许可 



































前 面 提 到 SMACK 的 操作 许可 很 简单 ， 只 有 6 种 。 它 们 对 应 的 文件 操作 很 直观 ， 对 于 其 他 客 

















体操 作 也 是 简单 映射 ， 这 里 不 多 装 述 。 
8.3.2 ”类 型 转换 














前 面 说 过 ， 类 型 体现 在 安全 标签 上 ， 所 以 类 型 转换 就 是 安全 标签 的 赋值 操作 。 








先 说 主体 ， 即 进程 的 安全 标签 。 进 程 的 安全 标签 的 值 有 三 个 来 源 : 
(1) 进程 复制 时 ， 子 进程 获得 父 进 程 的 安全 标签 值 。 
















































































(2 ) 进 程 执行 系统 调用 execveQ BT, 如 果 被 执行 文件 有 扩展 属性 “security.SMACK64EXEC”， 
则 执行 execve0 后 ， 进 程 安全 标签 为 被 执行 文件 的 扩展 属性 “security.SMACK64EXEC” 的 值 。 


















































(3) 通过 伪 文 件 接口 /proc/[pid]/attr/current 改变 进程 的 安全 标签 ， 不 过 有 三 个 条 件 : 








1) 只 能 改变 进程 自己 的 安全 标签 。 
2) 进程 具备 CAP MAC ADMIN 能 
84 
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3) 进程 的 安全 标签 等 于 SMACK 内 部 变量 smack_onlycap， 或 者 smack_onlycap 为 空 。 
再 说 客体 ，SMACK 中 文件 的 安全 标签 来 自 创 建 它 的 进程 或 文件 所 在 的 目录 ， 存 储 在 文 从 


的 扩展 属性 “security.SMACK64” 中 。 
SMACK 中 套 接 字 的 安全 标签 来 自 创 建 它 的 进程 ， 进 程 可 以 通过 假 的 扩展 属性 
“security.SMACK64IPIN” 和 “security.SMACK64IPOUT” 来 修改 。 套 接 字 本 身 没 有 扩展 属性 


T^ 性 ， 
用 户 态 进程 针对 套 接 字 调 用 设置 和 查看 扩展 属性 的 系统 调用 本 来 是 不 会 成 功 的 。 但 是 SMACK 
提供 了 相关 的 函数 让 这 些 系 统 调用 可 以 成 功 。 
在 用 户 态 代码 中 : 








Tr 











































































































n 



























































len = strlen("Zhi" ); 
rc = fsetxattr(fd, security.SMACK64IPOUT" ,"Zhi" , len, 0); 


在 内 核 代 码 中 : 


security/smack/smack lsm.c 


LI 





static int smack inode setsecurity(struct inode *inode, const char *name, 
size t size, int flags) 





const void *value, 


Skp = smk import entry(value, size); 
if (skp == NULL) 


return -EINVAL; 








XATTR SMACK SUFFIX) == 0) { 
"ONSE ZSME KNOWN; 处 理 文件 的 扩展 属性 
|= SMK INODE INSTANT; 











if (strcmp(name, 
nsp-»smk inode 
nsp-»smk flags 






































return 0; 


/* 

* The rest of the Smack xattrs are only on sockets. 
*/ 

if (inode-»i sb-»s magic !- SOCKFS MAGIC) 





return -EOPNOTSUPP; 


Sock = SOCKET I(inode); 
if (sock == NULL || sock-»sk == NULL) 


return -EOPNOTSUPP; 








ssp = sock-»sk-»sk security; 














if (strcmp(name, XATTR SMACK IPIN) == 0) ] p m 
处 理 套 接 字 的 扩展 属性 


Ssp-»smk in = skp-»smk known; 
else if (strcmp(name, XATTR SMACK IPOUT) == 0) 


Ssp-»smk out = skp; 





{ 


) else 
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return - 


EOPNOTSUPP; 





return 0; 


) 


84 扩展 属性 





H 万 


AE 














AN 
fj]! 











的 扩展 属性 非常 多 。 


了 代价 的 ! 相 比 于 SELinux 只 用 到 一 个 扩 


因 是 SMACK 的 策略 过 于 简单 了 ， 简 单 的 策略 难以 应 付 复杂 的 系统 。 





原 








性 





Fr Je A 


LE 





“ security.selinux", SMACK 用 到 
为 

















了 应 对 层出不穷 的 挑战 ，SMACK 引入 了 多 个 扩展 属性 : 





(1) SMACK64 




















这 是 最 基本 的 扩展 














属 怕 


(2) SMACK64EXEC 








当 进 程 执 行 exec 系统 调用 时 ， 
SMACK64EXEC” 属 性 。 








(3) SMACK64TRANSMUTE 


这 个 属性 作用 于 目录 ， 
展 属性 SMACK64) 值 








当 其 

















XK H He E 




















(4) SMACK64MMAP 





这 个 扩展 





J 
Tj 


ta 





标签 

















normal 


high 


La 
EE 


生 针 对 的 是 共享 库 Cshared library)。 通 过 这 个 标签 为 文件 赋予 了 一 个 新 的 安全 
E 的 安全 标签 。 当 进程 通过 
越 进 程 标签 的 操作 许可 。 
举 个 例子 ， 进 程 标签 为 normal， 一 个 共享 库 文件 的 
文件 的 标签 为 secret。 


rpg 


库 标签 不 能 拥有 站 





CH JEA 








HA “TRUE” 时 ,在 此 目录 下 新 建 的 文件 /上 


E， 文 件 客体 的 安全 标签 来 自 此 属性 。 























进程 的 新 安全 标签 来 自 被 执行 文件 的 “security. 











录 的 安全 标签 ( 扩 

















录 的 安全 标签 (扩展 属 








性 SMACK64)。 
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secret wa 


secret rwa 














系统 策略 为 : 











当 进 程 加 载 共享 库 时 就 会 失败 ， 因 为 





* secret" 





体 ， 这 在 理论 


上 不 好 解释 ; 


的 操作 许可 wa。 
SMACK 的 这 种 设计 不 好 到 





Ef, If 


H 








(5) SMACK64IPIN 
(6) SMACK64IPOUT 





其 次 ，mmap 系统 调 





这 两 个 扩展 属性 
进程 能 不 能 发 送 数据 包 到 某 个 套 接 字 。SMACK64IPOUT 








E 是 套 接 字 专 有 
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日 伪 文 件 系统 作为 
目录 下 的 文件 ， 不 过 它 只 允许 操作 其 中 一 个 文件 :current。 


的 扩展 














上 户 态 应 


过 mmap 系统 调用 载 入 共 





享 库 文件 时 ， 文 件 的 共享 











PE E 
EX 
NX 


























这 标签 为 high。 进 程 要 访问 的 一 个 





dx 


ZZ 





享 库 high 对 secret 的 操作 许可 rwa 超越 了 进程 对 




















有 两 个 潜在 的 问题 。 首 先 ， 文 件 成 了 某 种 意义 上 的 主 
不 止 用 于 加 载 共享 库 文件 。 
































属性 ，SMACK64IPIN 用 于 访问 控制 ， 比 如 判断 当前 
| 于 给 发 出 的 包 (packet) 赋 安 全 标签 。 












































和 内 核 的 接口 。 








SMACK 也 用 到 了 /proc/[pid]/attr 
除 此 之 外 ，SMACK 还 自 创 了 一 个 


第 8 章 SMACK 


的 文件 按照 功能 可 以 分 为 两 类 ， 一 类 和 策略 相 




















名 为 smackfs 的 文件 系统 。 文 件 系统 smackfs 
关 ， 另 一 类 和 网 络 标签 相关 。 
8.5.4. 策略 相关 文件 

(1) load 

SMACK 访问 控制 的 核心 是 策略 。 策 略 有 两 部 分 ， 一 部 分 是 所 谓 的 系统 策略 ， 是 不 可 更 改 
的 ; 另 一 部 分 是 用 户 可 配置 的 策略 。 下 面 首先 简单 介绍 一 下 系统 策略 。 

SMACK 预先 定义 了 5 个 标签 : ?、^、*、_ 和 @， 见 表 8-1. 




























































































表 8-1 SMACK 系统 标签 

















名 称 FH 
Huh ? 
Hat 人 
Star * 
floor - 
Web 








SMACK 预先 定义 了 以 下 7 条 策略 : 

1) 标签 为 “*” 的 主体 (进程 ) 不 能 对 任何 客体 进行 任何 操作 。 

2) 标签 为 “^” 的 主体 〈 进 程 ) 可 以 对 任何 客体 进行 读 r) 或 执行 (x) 操作 

3) 任何 主体 (进程 ) 可 以 对 标签 为 “” 的 客体 进行 读 (r) 或 执行 oo S 

4) 任何 主体 (进程 可 以 对 标签 为 “*” 的 客体 进行 任何 操作 。 

5) 任何 主体 (进程 ) 可 以 对 标签 相同 的 客体 进行 任何 操作 。 

6) 用 户 定义 的 策略 所 允许 的 操作 都 被 允许 。 

7) 其 他 操作 都 不 被 允许 。 

文件 load 是 用 来 存 取 用 户 定义 的 策略 的 接口 。 对 此 文件 的 写 操作 的 要 求 是 , 一 次 写 入 一 行 ， 
每 行 的 格式 是 : 


























nr cm 
o 












































$24s$24s£$5s 








AN INO hy F AA P A 一 AN Oz Af 蝇 


第 一 个 字符 串 表 示 主 体 安 全 标签 ， 第 二 个 字符 串 表 示 客 体 安全 标签 ， 第 三 个 字符 串 是 操作 
方式 ， 全 部 操作 方式 是 “rwxatl”， 表 示 读 、 写 、 执 行 、 添 加 、 变 形 、 锁 。 如 果 相 应 的 操作 不 被 
人 允许， 就 在 相应 的 位 置 上 填 “-”。 

(2) load-self 

这 个 文件 提供 了 一 个 接口 ， 用 来 为 进程 提供 额外 的 访问 控制 策略 。 与 很 多 安全 机 制 一 样 ， 
通过 这 个 接口 只 能 减少 允许 的 操作 。 

(3) logging 

这 个 文件 接口 用 于 控制 SMACK 的 日 志 策略 : 记录 失败 、 记 录 成 功 、 都 记录 、 都 不 记录 。 
这 个 文件 的 内 容 是 一 个 整数 。 代 码 实现 是 ; 





































































































/* 


* logging functions 
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xy 
*define SMACK AUDIT DENIED 0x1 
*define SMACK AUDIT ACCEPT 0x2 


extern int log policy; 





























变量 log policy 的 比特 位 0 对 应 是 否 记录 失败 事件 ， 比 特 位 1 对 应 是 否 记录 成 功 事件 。 
(4) access 


这 个 伪 文 件 接口 用 于 检查 规则 的 合法 性 。 向 这 个 文件 写 入 一 条 规则 ， 比 如 : 















































secret normal rw 





然后 再 读 取 文件 内 容 ， 如 果 内 容 是 asci 字符 1?"， 则 前 面 写 入 的 规则 被 内 核 多 许 ， 如 果 是 ascii 
字符 ‘0?， 则 前 面 写 入 的 规则 不 被 内 核 允 许 。 

(5) onlycap 

简单 是 有 代价 的 ，SMACK RIS HPTHERU SN CU RARER T, BA tim Pu 
以 修改 安全 策略 。SMACK 策略 中 客体 也 有 缺失 ， 比 如 : 安全 策略 本 身 是 不 是 客体 ， 它 的 标签 
又 是 什么 ? 为 了 解决 这 些 问 题 ，SMACK 的 方式 是 引入 超级 标签 ， 拥 有 超级 标签 的 主体 可 以 做 
诸如 修改 策略 这 样 的 特殊 工作 。 

在 Linux 能 力 机 制 中 有 两 个 能 力 CAP MAC ADMIN 和 CAP MAC OVERRIDE. 
CAP MAC ADMIN 的 语义 是 : 拥有 它 可 以 对 强制 访问 控制 (MAC ) 进行 管理 ， 
CAP MAC OVERRIDE 的 语义 是 : 拥有 它 可 以 不 受 强 制 访 问 控制 机 制 的 限制 。 这 两 个 能 力 的 引 
有 些 不 合 逻 辑 ， 能 力 机 制 本 质 上 属于 上 自主 访问 控制 (DAC)，DAC 不 应 该 超越 MAC. 
SMACK 的 问题 是 机 制 过 于 简单 ， 它 需要 引入 一 个 类 似 于 超级 用 户 的 角色 来 弥补 机 制 的 不 
MACK 引入 了 一 个 特殊 的 标签 smack_onlycap。 让 这 个 标签 和 前 述 两 个 能 力 配合 起 来 工作 。 
LÆ smack. onlycap 标签 的 进程 , 如 果 拥 有 了 CAP MAC ADMIN 能力, 它 就 可 以 进行 SMACK 
策略 管理 工作 。 有 具备 smack onlycap 标签 的 进程 ， 如 果 拥 有 了 CAP MAC OVERRIDE 能 力 ,就 
不 受 SMACK 限制 。 

onlycap 文件 提供 对 smack onlycap 标签 进行 管理 的 接口 ， 写 标签 字符 串 可 以 修改 
smack onlycap 值 ， 写 入 “-” 清 空 smack onlycap. 4; smack onlycap XT, WER ZMA 
CAP MAC ADMIN 就 可 以 进行 SMACK 策略 管理 工作 ， 只 要 拥有 CAP MAC OVERRIDE 就 
可 以 不 受 SMACK 限制 。 

(6) revoke-subject 
通过 这 个 文件 接口 写 入 一 个 标签 ， 系 统 中 具备 这 个 标签 的 进程 对 所 有 客体 都 无 法 进行 任何 
存 取 操 作 。 

(7) change-rule 
通过 这 个 文件 接口 对 系统 现存 策略 进行 修改 。 格 式 为 : 
%s Vos Ws Vos 
前 两 个 字符 串 分 别 是 主体 标签 和 客体 标签 ， 第 三 个 字符 串 是 允许 的 操作 ， 第 四 个 字符 串 是 
不 允许 的 操作 。 如 果 要 修改 的 策略 不 存在 ， 就 创建 新 的 策略 。 

(8) syslog 

syslog 文件 用 来 修改 和 查看 变量 smack_syslog_label。 这 个 变量 标示 一 个 特殊 的 标签 ， 拥 有 






















































































































































































Mm n > 
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这 个 标签 可 以 进行 syslog 相关 的 操作 。 
8.5.2 ”网 络 标签 相关 文件 


(1) ambient 

这 个 文件 反映 的 是 无 标签 网 络 包 的 安全 标签 。SMACK 依靠 IP 协议 中 一 个 未 能 成 为 标准 
的 选项 CIPSOS 来 将 安全 标签 附着 于 IP 包 包 头 之 中 。 这 就 带 来 一 个 小 问题 : 当 收 到 一 个 没有 
CIPSO 数据 的 IP 包 时 ， 此 IP 包 的 安全 标签 是 什么 呢 ? 总 得 有 什么 方式 来 规定 缺 省 值 吧 。 这 
个 缺 省 值 的 规定 接口 就 是 这 个 ambient 文件 。ambient 文件 的 内 容 是 一 个 字符 串 ， 规 定 了 网 络 
包 的 缺 省 标签 。 

(2) cipso 

CIPSO 的 标准 9 规定 网 络 数 据 包 携带 敏感 级 别 和 敏感 类 别 ， 敏 感 级 别 是 一 个 整数 ， 敏 感 类 
别 是 一 个 整数 的 集合 。 看 起 来 CIPSO 中 敏感 级 别 和 敏感 类 别 的 设计 来 自 Bell-Lapadula 模型 。 
而 SMACK 安全 标签 是 一 个 字符 串 。 这 就 需要 用 一 种 方式 将 二 者 联系 起 来 。cipso 文件 就 是 做 这 
件 事 的 。 先 说 对 cipso 文件 的 写 操作 ， 一 次 写 入 一 行 ， 每 行 的 格式 是 : 





























































































































$24s$4d$4d[$4d]... 








第 一 个 参数 是 字符 串 ， 表 示 SMACK 安全 标签 ， 第 二 个 参数 是 整数 ， 为 CIPSO 的 敏感 级 别 
值 ， 第 三 个 参数 是 整数 ,表示 后 续 还 有 儿 个 整数 , 这些 整数 是 CIPSO 的 敏感 类 别 值 。 举 个 例子 : 






































level-3-cats-5-19 3 2 5 19 


(3) direct 

上 面 的 cipso 文件 只 是 沟通 cipso 标签 和 SMACK 标签 的 一 座 桥 , 如 果 它 是 唯一 的 映射 方式 ， 
那么 为 每 一 个 cipso 标签 和 SMACK 标签 都 做 出 规定 是 一 件 很 麻烦 的 事 。 在 SMACK 系统 中 还 
有 更 加 直接 的 方式 。 
前 面 提 到 CIPSO 标签 包含 级 别 和 类 别 ， 级 别 是 一 个 整数 ， 类 别 是 整数 的 集合 。 在 实际 的 网 
络 包 中 ， 每 个 类 别 是 一 个 比特 ， 整 个 类 别 的 集合 就 是 一 个 字符 串 。SMACK 就 直接 用 这 个 字符 
串 来 携带 SMACK 安全 标签 , 因为 SMACK 标签 也 是 一 个 字符 串 。 不 过 , 这 就 完美 了 吗 ? Hj, 
还 有 一 个 问题 ， 承载 类 别 集合 的 这 个 字符 串 有 长 度 限 制 。 看 看 SMACK 代码 中 这 段 注 释 : 























































































































* Maximum number of bytes for the levels in a CIPSO IP option. 
* Why 23? CIPSO is constrained to 30, so a 32 byte buffer is 

* bigger than can be used, and 24 is the next lower multiple 

* of 8, and there are too many issues if there isn't space set 
* aside for the terminating null byte. 

xy 

#define SMK CIPSOLEN 24 









































4 
d 








cipso 限制 级 别 字符 串 的 长 度 上 限 是 30，SMACK 进一步 限制 可 用 其 中 的 开始 24 个 
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N 





o http://lwn.net/Articles/204905/ 
© https://tools.ietf.org/html/draft-ietf-cipso-ipsecurity-01 
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Ik [IK 


























SMACK 安全 标签 字符 串 长 度 低 于 24 时 ,直接 将 SMACK 安全 标签 放 入 cipso KIFE P. 
SMACK 安全 标签 字符 串 长 度 等 于 或 大 于 24 时 ,将 SMACK 安全 标签 转化 为 一 个 整数 





smk_secid， 然 后 将 smk. secid 放 入 cipso 类 别 字 符 串 。 为 区 分 这 两 种 情况 ， 前 一 种 情况 下 ，cipso 
级 别 值 为 smack cipso direct; 后 一 种 情况 下 ，cipso 级 别 值 为 smack_cipso_mapped。 
























































direct 文件 就 是 为 了 存 取 变 量 smack cipso direct 而 出 现 的 。 
(4) mapped 

此 文件 用 于 存 取 变 量 smack cipso mapped. 

(5) doi 

















cipso 标准 考虑 到 级 别 和 类 别 的 地 域 性 问题 , 即 级 别 和 类 别 在 一 组 网 络 节点 中 的 含义 与 在 另 
一 组 网 络 节点 中 的 含义 是 不 同 的 。 为 了 区 分 地 域 ，cipso 标准 规定 ip 的 cipso 选项 中 还 应 携带 另 



































一 个 信息 doi， 全 称 是 domain of interpretation. 
smackfs 的 doi 文件 用 来 读 写 doi 的 值 。 
(6) netlabel 
cipso 选项 并 没有 成 为 正式 标准 ， 大 多 数 系统 没有 实现 它 。 实现 了 cipso 

































































FF cipso 的 网 络 节 点 交互 呢 ? 首 先 ， 在 这 两 个 节点 间 交 互 的 IP. 网 络 包 不 要 带 




















的 网 络 节点 如 何 与 不 文 
上 cipso， 其 次 ， 可 以 认 





为 全 部 来 自 或 发 往 不 支持 cipso 网 络 节点 的 ip 网 络 包 都 带 有 同一 个 安全 标签 。 
文件 netlabel 就 是 用 来 规定 来 自 某 个 或 某 些 网 络 节点 的 网 络 包 的 网 络 标签 。 文 件 每 一 行 的 


























格式 如 下 : 
$d.$d.$d.$d label 
或 者 


$d.$d.$d.$d/$d label 


























前 面 的 格式 用 于 单个 网 络 节 点 ， 后 面 的 格式 用 于 子 网 。 举 个 例子 : 











172.16.1.100 file-server 
192.168.1.1/24 internal-subnet 


8.5.3 ”其 他 文件 




















下 面 要 介绍 一 些 功 能 和 上 面 介绍 的 文件 相同 的 文件 ， 这 些 文件 不 同 的 只 是 输入 的 形式 。 














€ access2 
€ cipso2 

€ load2 

€ load-self2 











这 些 带 “2” 的 文件 接口 和 前 面 不 带 “2” 的 文件 接口 功能 相同 ， 只 是 输入 格式 有 变 。 前 面 
的 文件 接口 要 求 标签 的 输入 固定 为 24 个 字符 ， 不 够 的 补 空格 ， 长 度 不 能 超过 24。 这 里 没有 这 



































个 限制 ， 短 了 就 少 写 ， 长 了 就 多 写 。 
读 到 这 里 ， 你 还 觉得 SMACK 简单 吗 ? 
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8.0 ”网 络 标签 























通读 SMACK 代码 ， 你 会 发 现 有 关 网 络 标签 (netlabel) 的 代码 占 了 很 大 部 分 。 网 络 标签 背 
后 的 标准 是 一 个 很 早 就 提 昌 








但 一 直 没 有 成 为 标准 的 IETF draft?——CIPSO (Commercial IP 























Security Option )。 大 致 上 ， 这 个 标准 草案 就 是 利用 IP 包头 的 option 空间 携带 一 些 安全 信息 ， 安 






































全 信息 包括 “敏感 级 别 ” 和 “敏感 类 别 ”。 





这 个 标准 草案 写 于 1992 年 ， 二 十 多 年 过 去 了 ， 它 还 是 草案 。 问 题 在 哪里 呢 ? 作者 认为 ， 它 
HA: 





的 问题 主要 有 了 








(1) 它 规定 携带 的 安全 





























信息 是 “敏感 级 别 ” 和 “敏感 类 别 ” 这 很 明显 是 Bell-Lapadula 模 





型 的 产物 ， 而 Bell-Lapadula 模型 产生 于 20 世纪 60 年 代 末 70 年 代 初 ， 它 的 应 用 领域 有 些 窗 。 
(2) 它 对 安全 信息 本 身 没 有 相应 的 保护 ， 这 意味 着 在 网 络 环境 中 任何 一 台 计 算 机 都 有 可 能 
伪造 自己 发 出 的 人 P 数据 包 的 “敏感 级 别 ” 和 “敏感 类 别 ” 信 息 。 接 收 方 无 法 验证 接收 到 的 网 络 


包 的 “敏感 级 别 ” 和 “敏感 类 别 ” 的 正确 性 。 




































































SMACK 使 用 了 CIPSO。 对 于 第 一 个 问题 ，SMACK 在 实现 中 在 自己 的 安全 标签 和 CIPSO 
标签 间 建 立 了 一 一 对 应 的 映射 关系 ， 可 以 认为 SMACK 对 “敏感 级 别 ” 和 “敏感 类 别 ” 进 行 了 








转 义 。 对 于 第 二 个 问题 ， SMACK 没有 做 任何 事 ， 只 是 假设 在 一 个 可 信 的 安全 的 网 络 环境 中 使 


用 CIPSO 标签 


81 总 结 


SMACK 是 打 着 “简单 


o 



























































三 个 地 方 : 首先 是 它 将 主体 























”的 大 旗 杀 入 Linux 的 。 分 析 其 代码 我 们 发 现 它 的 简单 主要 体现 在 
对 客体 的 访问 方式 简化 了 ， 只 有 读 、 写 、 执 行 、 增 加 等 几 种 ， 其 次 














是 它 将 对 自身 的 访问 控制 ， 即 作为 安全 机 制 的 承载 基础 的 标签 和 策略 ， 排 除 出 体系 ， 将 之 委托 




















SMACK 功能 。 





























于 特权 :最 后 是 预制 了 若干 标签 和 策略 ， 在 不 自己 定义 标签 和 策略 的 情况 下 ， 用 户 也 可 以 使 用 
































SMACK 的 主要 应 用 领域 是 能 入 式 系统 。 但 是 最 主流 的 嵌入 式 系统 Android 并 没有 使 用 它 。 


8&8 ”参考 资料 








读者 可 参考 Documentation/security/Smack.txt。 


习题 








smackfs : 





有 








些 syslog 相关 


的 操作 ? 为 


一 个 文件 syslog， 其 内 容 是 一 个 SMACK 标签 。 拥 有 此 标签 的 进程 可 以 进行 哪 


























TA SMACK 要 这 么 设计 ? 如 果 不 这 么 设计 ， 还 有 什么 别 的 方式 ? 


C https://tools.ietf.org/id/draft-ietf-cipso-ipsecurity-01.txt 
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Tomoyo 是 另 一 个 Linux 内 核 安全 模块 。SELinux 和 SMACK 的 名 字 都 来 
Tomoyo 则 不 同 ， 它 是 
本 的 NTT Data 公司 ， 
发 者 不 会 不 知道 成 熟 的 SELinux 已 经 占 尽 先 机 。 那 么 这 些 日 本 的 Linux 
开发 一 个 新 的 内 核 安 全 模块 ， 而 不 是 使 用 已 有 的 SELinux WE? 客观 








发 者 是 
































简介 


只 有 五 个 月 。Tomoyo 的 
内 核 安全 人 员 为 什么 要 自己 


第 9 前 








个 























Tomoyo 
































英文 单词 缩写 ， 














本 女性 的 名 字 ， 写 作 汉语 是 “友子 ”或 “ 知 子 ”2。Tomoyo 的 开 


发 起 始 于 2003 年 3 月 ， 此 时 距离 SELinux 被 Linux 主线 接受 





























地 说 ，Tomoyo 的 确 有 独到 之 处 。 
9.1.1 基于 路 径 的 安全 


SMACK 鼓吹 的 是 简单 。Tomoyo 推出 的 则 是 另 一 个 卖点 ， 而 这 又 涉及 一 场 至 今 没 有 结 
争论 : 基于 inode 的 安全 与 基于 路 径 的 安 4 
起 ， 文 件 就 是 一 个 非常 重要 的 概念 。 文 件 是 什么 ? 文件 首先 包含 








E UNIX 诞生 之 
















































































的 





个 

















qx 





据 ， 这 堆 数 据 就 是 文件 的 内 容 。 除 了 内 容 之 外 ， 文 件 还 有 一 些 被 称 为 元 数据 的 关联 信息 需要 存 


储 ， 比 如 文件 的 
据 存储 在 文件 的 inode ! 
内 核 根本 没有 提供 通过 inode 号 来 查找 文 伯 
目录 和 文件 名 串联 起 来 部 
要 为 文件 引入 安全 属 | 


TEE 


于 是 很 多 文件 系统 引入 了 扩 





inode 关联 。 














Vg. XRJG 






































kg 











ES] 











是 一 条 文件 路 径 。 
生 ， 很 自然 地 想到 安全 属性 不 是 文人 


,文件 本 身 存 储 的 是 内 容 数 ] 





























(OD 文件 的 安 
的 安全 属性 都 没有 变化 。 
(2) 同一 个 文件 可 以 有 多 个 链接 ， 从 不 同 链接 访问 文件 ， 





基于 inode 的 安全 的 缺点 是 : 























展 属 性 ,一些 内 核 安 全 模块 将 安 


展 属 性 中 ， 这 种 方式 就 是 基于 inode 的 安全 。 基 于 inode 的 安全 的 优点 主要 有 两 个 : 





上 建 日 期 、 文 件 的 长 度 等 。 在 UNIX/Linux 文件 系统 中 ， 元 数 


























据 。 用 户 态 进程 访问 文件 并 不 是 通过 inode, 














F 的 系统 调用 。 进 程 访 问 文件 需要 通过 目录 ， 将 各 级 




















内 容 ， 而 是 属于 元 数据 ， 应 ; 





A 





























(1) 文件 系统 必须 支持 扩展 属性 ， 





























并且 挂 载 文件 系统 时 必须 使 用 扩展 










































































全 属 





性 存储 在 文件 的 扩 





全 属性 与 文件 路 径 无 天。 文件 可 以 在 不 同 目录 间 移 动 ， 不 管 它 怎么 移动 ， 它 








其 安全 属性 总 是 一 样 的 。 
属性 。 现 在 这 个 问题 已 经 

















































































































基本 得 到 解决 了 。 目 前 Linux 上 大 多 数 文件 系统 已 经 支持 扩展 属性 , 并 且 挂 载 时 缺 省 使 用 扩展 属性 。 

(2) 删除 文件 时 ， 文 件 的 安全 属性 会 随 之 消失 。 再 在 原先 的 路 径 处 创建 同名 文件 ， 并 不 能 
保证 新 文件 和 老 文件 的 安全 属性 相同 。 

(3) 安装 软件 和 升级 软件 需要 保证 系统 中 新 的 文件 具有 正确 的 安全 属性 。 新 文件 来 自 软件 
包 ， 新 的 安全 属性 自然 也 应 该 来 自 软件 包 。 于 是 有 了 下 一 个 要 求 : 众多 软件 包 格 式 也 需要 支持 
文件 的 扩展 属性 ， 比 如 tar、cpio 等 。 

下 面 说 说 基于 路 径 的 安全 。 








© http:;//en.wikipedia.org/wiki/Tomoyo 
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AN 

















"5 








从 用 户 角 
inode 的 安全 ， 
能 否 将 文件 的 




















/usr/local/bin/bash 的 安全 
存储 在 系统 内 








路 径 访 问 文件 ， 月 














度 看 , 用 户 通过 
用 户 读 写 安全 属 


























日 户 态 进 程 无 法 用 inode 号 来 访问 文件 。 即 使 是 
生 也 要 先 通过 路 径 找到 文件 ， 然 后 才能 











j 单 地 与 文 伯 
Jat 


生 是 “local-shell”。 
部 的 一 张 表 旭 


安全 属性 简 














日 


L5 








(1) 不 需要 文件 系统 有 额外 文 


二 





Fo 





PREX MERE? 比如 /bin/bash 的 安全 








属性 是 


访问 文件 的 安全 属性 。 


第 9 章 Tomoyo 
基于 
那么 


* system-shell ", 























不 把 这 些 安全 属 
这 就 是 基于 路 径 的 安全 的 实现 原理 。 








(2) AME 





文件 更 新 ， 对 打包 格式 也 没有 

















全 属性 。 
ATE 

件 拥有 男 一 

在 Linux 








AppArmor 是 基于 路 径 的 安全 。 与 基于 inode 的 安全 
粒度 管理 


SELinux 和 SMACK 都 是 将 系统 中 所 有 的 进程 作为 
要 么 所 有 的 进程 都 不 受 控 制 。Tomoyo 可 以 做 到 让 系统 中 


9.1.2 





双 的 安全 的 缺点 是 :同一 个 文件 








个 安全 属性 。 














四 个 主要 的 安全 模块 





























制 。 更 进 


步 ，Tomoyo 还 可 以 做 到 让 进程 的 某 些 


91.3 MERTE 


在 Linux 
仅 能 做 访问 

















的 模式 ， 
违反 策略 


但 





第 三 ，SELinux 的 处 型 


态 Audit 守护 














pi 
有 进程 的 操作 记录 下 来 。 











内 核 的 5 个 安全 模块 ， 
下， 还 能 探测 系统 


A^ 


[RJ 















































EJ] 式 烦 琐 ， 
进程 接收 消息 存储 到 日 志文 件 
































是 用 户 态 工 











内 核 伪 文 件 接口 直 








是 月 





9.1.4 


Tomoyo 





这 个 分 支 


三 个 分 支 


与 其 他 内 核 安全 模块 的 一 个 


























j 者 需要 修改 内 核 





可 能 有 多 个 


，Tomoyo 的 
J 为 。 在 Tomoyo 的 学 习 模式 下 ，Tomoyo 的 
一 个 类 似 的 称 作 permissive 
各 的 行为 ， 


内 核 的 SELinux 387 
; SELinux 
接 采 集 来 自 内 核 的 Tomoyo 数据 呈现 给 月 


区 别 是 它 公 开 
的 Lx 系列 ， 这 是 开发 的 主线 ， 其 功能 与 代码 都 是 最 
的 形式 发 布 的 ， 使 
已 被 Linux 主线 接受 ， 所 以 不 需要 修改 内 核 ， 而 且 


额外 要 求 。 用 户 其 至 可 以 为 还 不 存 


A 


女 

















全 








性 





存储 在 文 从 

















这 样 做 的 优点 





的 扩展 属性 中 ， 而 是 


三 | 
AE: 









































性 


3ül 


























相 比 ， 基 了 


操作 受到 控 


路 径 的 安全 的 最 大 4 


j 单 地 创建 链接 就 可 能 


在 的 文件 定义 安 


让 文 


，SELinux 和 SMACK 是 基于 inode 的 安全 9，Tomoyo 和 
点 是 容易 使 用 。 






























































j 户 态 了 








单 的 SMACK 没有 这 个 功能 ，SELinux 有 
不 如 Tomoyo 的 学 习 模 式 易 用 。 第 一 ， 它 只 





H 


一 一 、 


会 记录 第 一 次 违反 策 





制 ， 某 些 操作 不 受 控制 。 








一 个 整体 ， 要 么 所 有 的 进程 都 受 控制 ， 
部 分 进程 受到 控制 ， 部 分 进程 不 受 控 

















是 最 易于 使 用 的 。Tomoyo 声称 不 














x 



































十 


C 





一 律 放行 并 且 不 会 留 下 记录 ; 第 二 , SELinux 是 基于 inode 的 , 所 以 它 不 会 
内 核 中 的 Audit 子 系统 输出 消息 ， 






































JL 


发 布 三 个 代码 分 支 。 
折 的 ， 但 是 这 个 分 支 的 代码 是 以 内 核 patch 














分析 日 志文 件 。 











和 化 一 个 分 











尺码 ， 编 译 内 核 ， 之 后 才能 使 用 。 
许多 Linux 发 行 版 已 将 其 编 入 所 发 





第 





名 二 个 分 


HA 








工具 会 将 所 


以 后 的 
记录 文件 名 ; 
用 户 
而 Tomoyo 则 








J>. 


第 一 个 是 功能 最 全 





LE 2.x 系列 ， 

















E 
AE 





行内 核 。 但 














92 机 制 


作为 在 Linux 内 核 中 的 一 个 强制 访问 控制 子 系统 ,Tomoyo 的 型 





这 个 分 支 的 代码 最 为 陈旧 











© SELinux 做 了 一 些 调和 ， 使 得 文件 的 安全 标签 也 可 能 受到 路 径 的 影响 ， 


， 功 能 也 最 少 。 匈 
功能 和 代码 更 新 程度 处 于 1.x 和 2.x 之 间 。 本 章 以 下 部 分 以 Tomoyo 2.5 Xi 

















^U] 











H 
u 








- 
是 类 














Eie AER 











三 个 分 支 叫 AKARI, 以 模块 形式 发 布 ， 


Bo 


详情 参考 http:Wlwn.net/Articles/419161 . 


93 


Linux 内 核 安全 模块 深入 剖析 

















另 一 种 称呼 是 域 ， 本 章 以 下 内 容 主要 / 
题 : 域内 的 操作 许可 和 域 间 的 转换 规则 。 


9.2.1 操作 许可 
相对 来 说 ，Tomoyo 可 以 控 






















































































E 








制 的 客体 类 型 并 不 多 ， 只 有 文件 、 
指 的 是 套 接 字 ， 网 络 之 下 又 可 分 为 INET 和 UNIX 
“环境 ”是 Tomoyo 独 有 的 一 种 客体 类 型 , 其 他 强 甫 





域 这 个 名 词 。 基 于 域 的 访问 控制 本 质 - 








网 络 和 环境 









































































































































等 几 类 。 网 络 实际 
两 小 类 。Tomoyo 中 用 ENVIRON 来 代表 环 ] 
| 访问 控制 模块 一 一 SELinux、SMACK、AppArmor 





上 包含 两 个 核心 问 





EN 
La. 


d o 



































都 没有 这 种 客体 类 型 。“ 环 境 ” 指 的 是 进程 的 环境 变量 。 在 进程 执行 execve 时 起 作用 ， 用 来 控制 执 
行 execve 后 进程 可 以 得 到 的 环境 变量 。 举 个 例子 ， 如 果 在 策略 文件 中 规定 了 执行 execve 前 后 进程 
可 以 读 取 的 环境 变量 包括 PATH、PWD、RUNLEVEL 等 ， 但 是 不 包括 LD PRELOAD， 那 么 通过 
环境 变量 LD_ PRELOAD 使 得 进程 加 载 恶 意 共享 库 的 攻击 手段 就 无 效 了 。 

在 Tomoyo 中 ， 不 同 的 客体 类 型 有 不 同 的 操作 许可 。 客 体 类 型 隐 合 在 操作 许可 之 中 。 以 下 
列 出 Tomoyo 2.5 中 的 操作 许可 ， 前 级 包含 “FILE” 的 都 是 文件 son unie 前 级 包 合 
NETWORK 的 都 是 网 络 类 型 的 操作 许可 。 

€ FILE EXECUTE € FILE MOUNT 

€ FILE OPEN € FILE UMOUNT 

€ FILE CREATE € FILE PIVOT ROOT 

€ FILE UNLINK € NETWORK INET STREAM BIND 

€ FILE GETATTR € NETWORK INET STREAM LISTEN 

€ FILE MKDIR € NETWORK INET STREAM CONNECT 

€ FILE RMDIR € NETWORK INET DGRAM BIND 

€ FILE MKFIFO € NETWORK INET DGRAM SEND 

€ FILE MKSOCK € NETWORK INET RAW BIND 

€ FILE TRUNCATE € NETWORK INET RAW SEND 

€ FILE SYMLINK € NETWORK UNIX STREAM BIND 

€ FILE MKBLOCK € NETWORK UNIX STREAM LISTEN 

€ FILE MKCHAR € NETWORK UNIX STREAM CONNECT 

€ FILE LINK € NETWORK UNIX DGRAM BIND 

€ FILE RENAME € NETWORK UNIX DGRAM SEND 

€ FILE CHMOD € NETWORK UNIX SEQPACKET BIND 

€ FILE CHOWN € NETWORK UNIX SEQPACKET LISTEN 

€ FILE CHGRP € NETWORK UNIX SEQPACKET CONNECT 

€ FILE IOCTL € ENVIRON 

€ FILE CHROOT 
9.2.2 ”类 型 和 域 

Tomoyo 的 强制 访问 控制 的 理论 基础 是 类 型 增强 。“ 增 强 ” 指 的 是 9.2.1 节 提 到 的 操作 许可 ， 




















通过 这 些 操作 许可 规范 进程 行为 ， 规 定 进 程 在 当 











| AE 














应 该 有 类 型 。 
型 的 策略 探 表 
94 





| 语句 是 : 








前 的 域 中 可 以 做 人 
但 是 Tomoyo 对 类 型 进行 了 简化 ， 只 有 主体 ， 即 进程 有 类 型 。 




















| A o 





























类 型 增强 的 





类 型 A 的 主体 (进程 ) 可 以 对 类 型 x 的 客体 进行 m 操作 ， 文 件 f 的 类 型 


里 论 上 ， 主 体 和 客体 都 














I 





小 





A 
28 


& 93: Tomoyo 














为 Xx。 在 Tomoyo 中 这 条 语句 就 变 为 : 域 A 的 进程 可 以 对 f 文 件 进 行 m 操作 。 

那么 Tomoyo 的 域 又 是 什么 呢 ?Tomoyo 的 域 就 是 进程 的 执行 历史 。 比 如 , 某 人 在 登录 系统 
(通过 字符 终端 登录 ) 后 运行 “ls” 命 令 ， 这 个 运行 “ls” 命 令 的 进程 的 域 就 是 : 

<kernel> /sbin/getty /bin/login /bin/bash /bin/ls 

从 这 里 我 们 可 以 看 到 kernel 启动 之 后 运行 /sbin/getty2， 然 后 运行 了 /bin/login， 当 某 人 输入 
了 正确 的 用 户 名 和 口令 之 后 ，/bin/login 运行 /bin/bash， 最 后 在 这 个 shell 中 运行 了 某 人 输入 的 命 
令 “]s”。 

Tomoyo 域 转换 工作 主要 是 在 内 核 的 execve 系统 调用 实现 中 进行 的 ， 缺 省 操作 就 是 将 被 执 
行文 件 的 全 路 径 名 附加 在 当前 域 的 最 后 。 所 以 ，Tomoyo 的 域 是 由 全 部 执行 历史 决定 的 。 比 如 ， 
某 人 运行 “sudo ls” 产 生 的 进程 的 域 就 是 : 

«kernel» /sbin/getty /bin/login /bin/bash /usr/sbin/sudo /bin/ls 

Tomoyo 的 这 种 设计 是 简单 而 有 效 的 。 简 单 是 指 系统 管理 员 不 必 为 域 的 定义 费心 。 对 比 一 
下 SELinux, SELinux 的 域 是 由 策略 定义 的 ， 策 略 的 制定 者 要 通过 策略 语句 来 分 出 不 同 的 域 。 
有 效 是 指 Tomoyo 的 域 不 是 由 进程 当前 所 执行 的 文件 唯一 决定 的 。 在 本 地 终端 登录 的 shell 和 远 
程 登录 的 shell 处 于 不 同 的 域 ， 管 理 员 可 以 配置 策略 ， 让 这 两 个 shell 的 行为 有 所 区 别 。 















































































































































































































































9.9 策略 








Tomoyo 也 遵循 机 制 和 策略 分 离 的 原则 。9%.2 节 讲 述 机 制 ， 本 节 讲 述 策略 。 

Tomoyo 是 内 核 的 一 个 子 系统 ， 它 使 用 的 策略 本 质 上 是 存储 于 内 核 内 存 中 的 数据 表 。 用 户 
接触 的 是 策略 文件 ， 用 户 制定 策略 就 是 编辑 策略 文件 ， 用 户 查 看 策略 就 是 查看 策略 文件 。 需 要 
注意 的 是 ， 内 核 中 的 Tomoyo 子 系统 并 不 会 访问 策略 文件 。 用 户 要 想 让 自己 编辑 的 策略 生效 ， 
需要 将 策略 文件 加 载 进 内 核 的 策略 数据 表 。 这 个 过 程 在 Tomoyo 中 是 通过 安全 文件 系统 
Csecurityfs). 的 伪 文 件 接口 来 实现 的 。 

无 论 是 SELinux 还 是 SMACK， 内 核 内 存 中 的 策略 数据 表 都 不 是 一 个 ，Tomoyo 也 是 如 此 。 
日 是 Tomoyo 为 不 同 的 策略 数据 表 设 计 了 不 同 的 伪 文 件 接口 。 

9.3.4 WERI 

域 策 略 的 作用 是 规定 系统 中 每 个 域 的 操作 许可 。 域 策略 的 策略 文件 的 一 个 可 能 的 位 置 在 
/etc/tomoyo/ 之 下 。 之 所 以 说 “可 能 ”是 因为 文件 位 置 并 不 重要 ， 它 完全 由 Tomoyo 的 用 户 态 工 
具 决 定 。 安 全 文件 系统 通常 的 挂 载 点 在 /sys/kernel/security。 域 策略 的 伪 文 件 接口 在 /sys/ 
kernel/security/tomoyo/domain policy。 读 这 个 文件 就 可 以 看 到 当前 系统 中 所 有 域 的 操作 许可 : 
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root8ubuntu-desktop:/sys/kernel/security/tomoyos cat domain policy 
Xkernel» /sbin/init /sbin/getty /bin/login /bin/bash 
use profile 1 


use group 0 


file execute /bin/ls 














O 其 实 之 前 还 运行 了 init。 
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file write /dev/null 


Xkernel» /sbin/init /usr/sbin/sshd 






































domain policy 文件 的 内 容 就 是 系统 中 所 有 域 的 操作 许可 。 每 个 域 的 格式 是 : 第 一 行 是 域 的 
标识 ， 基 本 可 以 等 价 于 进程 的 执行 历史 ;第 二 行 是 域 使 用 的 轮廓 ， 第 三 行 是 域 使 用 的 蜡 常 组 ; 
第 四 行 是 空 行 ， 第 五 行 以 下 是 域 的 操作 许可 ;最 后 是 一 个 空 行 。 

9.3.2 异常 


前 面 的 例子 里 有 个 问题 ， 像 /dev/null 这 样 的 文件 谁 都 可 以 写 ， 在 每 一 个 域 里 面 专门 写 出 一 
条 允许 策略 语句 是 很 浪费 资源 的 。 此 外 ， 假 设 进程 处 在 下 面 这 个 域 里 : 













































































<kernel> /sbin/init /sbin/getty /bin/login /bin/bash 


进程 执行 /bin/bash， 进 程 的 新 域 是 : 





<kernel> /sbin/init /sbin/getty /bin/login /bin/bash /bin/bash 





如 果 再 次 执行 /bin/bash， 进 程 的 新 域 变 为 : 








<kernel> /sbin/init /sbin/getty /bin/login /bin/bash /bin/bash /bin/bash 





有 必要 区 分 上 面 这 三 个 域 吗 ? 显然 没有 必要 。 

Tomoyo 通过 异常 来 规范 策略 语句 ， 减 少 资源 浪费 。 异 常 相关 的 策略 语句 的 伪 文 件 接口 是 
/sys/kernel/security/tomoyo/exception policy。 异 常 Cexception) 这 个 词 有 些 词 不 达意 ， 但 作者 又 
找 不 到 一 个 更 合适 的 词 来 表达 。 下 面 看 一 下 有 具体 的 异常 策略 语句 。 

1. 域 定义 相关 的 异常 

(1) 域 保持 

域 保持 就 是 让 进程 的 域 保持 原样 ， 不 会 因为 执行 文件 而 变化 。 举 个 例子 : 







































































keep domain any from <kernel> /usr/sbin/sshd /bin/bash 








这 意味 着 通过 ssh 登录 而 产生 的 shell 进程 固定 在 域 “<kernel> /usr/sbin/sshd /bin/bash” 中 
再 执行 文件 进程 的 域 不 再 发 生变 化 。 在 此 基础 上 ， 策 略语 句 的 语法 可 以 变化 为 : 





















































keep domain any from /bin/bash 








上 面 语句 没有 列 出 一 个 完整 域名 ， 只 有 域名 中 最 后 一 级 所 执行 文件 的 全 路 径 名 ,意思 是 在 
执行 了 /bin/bash 的 进程 中 ， 再 执行 任何 文件 都 不 会 发 生 域 转换 了 。 






































keep domain /bin/bash from /bin/bash 








上 面 语句 的 意思 是 在 /bin/bash 进程 中 执行 /bin/bash 不 会 发 生 域 转换 ， 执 行 别 的 文件 


— 


仿 然 可 
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第 9 章 Tomoyo 
以 引起 域 的 变化 。 
(2) 域 初始 化 
根据 前 面 的 介绍 ， 进 程 的 域 就 是 进程 执行 文件 的 历史 。 当 然 ， 有 些 历史 是 进程 从 祖先 进程 
处 继承 来 的 。 有 时 候 进 程 的 域 中 包含 太 多 的 历史 信息 实在 没有 必要 ， 域 初始 化 语句 就 是 用 来 删 
除 不 必要 的 历史 信息 的 。 举 个 例子 : 
initialize domain /usr/sbin/sshd from any 
这 条 语句 导致 执行 srsbin/sshd 将 会 转换 到 这 个 域 中 : 
<kernel> /usr/sbin/sshd 
除了 最 后 一 个 执行 文件 的 记录 外 ， 还 有 一 个 用 “<” 和 “>” 包 囊 的 “<kernel>”。 用 “<” 
J >” GRRE Tomoyo 的 名 字 空 间 ， 下 文 会 有 讲述 。 
any 也 可 以 替换 为 域名 或 路 径 名 : 





initial 


lize domain /usr/sbin/sshd from «kernel» /etc/init.d/sshd 
这 条 语句 导致 在 系统 启动 过 程 启 
ssh 进程 则 不 是 。 

(3) 创建 名 字 空 间 
首先 看 一 下 什么 是 Tomoyo 的 名 字 空 间 (namespace )。 名 字 空 间 的 形式 是 用 “<” 和 “>” 
包 于 的 一 个 字符 串 。 一 个 名 字 空 间 会 关联 一 组 策略 、 异 常 以 及 9.3.3 节 要 提 到 的 轮廓 。Tomoyo 
缺 省 的 名 字 空 间 是 “<kemel>”。 创建 新 名 字 空 间 的 语句 是 “reset” 语 句 : 


reset domain /usr/sbin/sshd from any 











动 的 ssh 服务 进程 处 在 初始 化 的 域 中 ， 而 其 他 方式 启动 的 






































上 述 语 句 的 含义 是 : 在 任意 域 ! 
* «lusr/sbin/sshd» ", 也 就 是 说 ，sshd Uf 














mi 











执行 /usr/sbin/sshd 导致 域 转换 到 新 上 


的 名 字 空间 
的 新 域 是 “</usr/sbin/sshd>”。 假 设 sshd XE 
进程 ， 并 在 子 进程 中 执行 /bin/bash， 那 么 子 进程 的 域 就 是 “</usr/sbin/sshd> /bin/bash ". 
(4) 异常 的 异常 


























程 创建 了 子 











为 了 增加 灵活 性 ，Tomoyo 又 提供 了 3 个 no 开头 的 异常 策略 语句 : no keep domain, 
no initialize domain、no_reset_domain， 来 抵消 keep domain, initialize domain. reset domain 
的 作用 。 举 几 个 例子 : 














keep domain any from «kernel» /usr/sbin/sshd /bin/bash 





no keep domain /bin/cat from «kernel» /usr/sbin/sshd /bin/bash 
上 述 异 常 策略 语句 表示 在 ssh 登录 产生 的 shell P, WR shell 进程 〈 创 建 的 子 进 程 ) 执行 
了 /bin/cat， 那 么 cat 进程 所 在 的 域 是 “<kernel> /usr/sbin/sshd /bin/bash /bin/cat”。 shell 进程 执 
其 他 文件 时 ， 其 所 在 的 域 是 “<kernel> /usr/sbin/sshd /bin/bash ”。 
































4 
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initialize domain /usr/sbin/sendmail from any 


no initialize domain /usr/sbin/sendmail from /bin/mail 
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上 述 异 常 策略 语句 表示 ， 如 果 一 个 进程 的 域 的 最 后 一 个 字段 是 “/bin/mail”， 也 就 是 说 ， 该 
进程 所 执行 的 文件 是 /bin/mail， 那 么 当 该 进程 执行 asrsbin/sendmail 时 ， 新 的 域 是 “…/bin/mail 
/ust/bin/sendmail ”。 反 之 ， 如 果 进 程 的 域 的 最 后 一 个 字段 不 是 “/bin/mail”， 那 么 进程 执行 
/usr/sbin/sendmail 后 的 新 域 就 是 “<kernel> /usr/sbin/sendmail ". 












































reset domain /usr/sbin/sendmail from any 


no reset domain /usr/sbin/sendmail from /bin/mail 
































上 述 异 常 策略 语句 表示 ， 如 果 一 个 进程 的 域 的 最 后 一 个 字段 是 “/bin/mail”， 那 么 当 该 
进程 执行 /usr/sbin/sendmail 时 ， 新 的 域 是 “…/bin/mail /usrsbin/sendmail”。 反 之 ， 如 果 进 程 
的 域 的 最 后 一 个 字段 不 是 “/bin/mail”, 那么 进程 执行 /usr/sbin/sendmail 后 的 新 域 就 是 “</usrsbin/ 
sendmail^ ”。 

2. 其 他 异常 

异常 策略 语句 的 另 一 个 作用 是 提供 归 类 功能 ， 减 少 策略 语句 数量 ， 节 约 内 核 内 存 ， 节 省 策 
略 制定 者 的 时 间 和 精力 。 

(CD 聚合 


Tomoyo 是 基于 路 径 的 ， 一 条 典型 的 访问 控制 策略 是 : 










































































file execute /bin/less 


这 条 语句 的 意思 是 允许 执行 /bin/less。less 和 more 功能 相同 ， 能 不 能 对 两 者 一 视 同仁 呢 ? 
于 是 产生 了 聚合 语句 : 





aggregator /bin/more /bin/less 








上 述 异 常 策略 语句 表示 在 策略 文件 中 “/bin/less” 和 “/bin/more” 同 义 ， 几 是 对 “/bin/less” 
的 操作 许可 ， 默 认 也 存在 于 “/bin/more” 之 上 。 
(2) 路 径 组 、 数 字 组 和 地 址 组 
1) 路 径 组 
总 是 写 全 路 径 名 太 麻 烦 了 ，3 引 入 正则 表达 式 会 方便 些 。 于 是 有 了 路 径 组 : 




















path group HOME-DIR-FILE /home/\*/\* 
在 策略 中 使 用 path. group 所 定义 的 “HOME-DIR-FILE” 需 要 前 级 “@”: 


file read QHOME-DIR-FILE 








20 数字 组 
同 理 ， 数 字 组 的 出 现 是 为 了 避免 在 策略 文件 中 反复 输入 同一 个 数字 : 











number group CREATE-MODES 0644 














使 用 的 策略 : 





file create /tmp/file QCREATE-MODES 
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"d 








3) 地 址 组 





再 看 为 网 络 地址 而 设 的 地 址 组 : 


address group LOCAL-ADDRESS 10.0.0.0-10.255.255.255 
address group LOCAL-ADDRESS 172.16.0.0-172.31.255.255 
address group LOCAL-ADDRESS 192.168.0.0-192.168.255.255 


使 用 的 策略 : 




















network inet stream accept GLOCAL-ADDRESS 1024-65535 








(35 访问 控制 组 














前 面 提 到 有 些 操作 许可 在 每 个 域 都 应 该 具备 ， 比 如 “file write /devnull”。 如 果 每 个 域 都 为 





这 种 通用 的 操作 许可 写 一 条 策略 语句 ， 那 就 很 浪费 资源 了 。 访 问 控制 组 就 用 来 定义 通用 的 操作 








许可 。 








下 面 看 一 个 例子 : 


acl group 0 file read /dev/null 


acl group 0 file read /etc/localtime 





策略 会 在 每 一 个 域 下 面 声明 这 个 域 使 用 的 访问 控制 组 ， 下 面 看 一 个 例子 : 








root@ubuntu-desktop:/sys/kernel/security/tomoyo# cat domain policy 


Xkernel» 


/sbin/init /sbin/getty /bin/login /bin/bash 


use profile 1 


use group 0 < 














更 用 0 号 访问 探 人 





file execute /bin/ls 
file write /dev/null 


Xkernel» 


9.3.3 轮廓 


轮廓 (profile) 


/sbin/init /usr/sbin/sshd 
































的 作用 是 配置 一 些 Tomoyo 参数 。 先 看 一 个 例子 : 


rootQubuntu-desktop:/sys/kernel/security/tomoyods cat profile 








PROFILE VERSION-20110903 





0-COMMENT-disabled 











0-PREFERE 














NCE-( max audit 10g-1024 max learning entry-2048 ] 


0-CONFIG={ mode-disabled grant log-yes reject log-yes } 




















轮廓 的 伪 文 件 接口 是 /sys/kernel/security/tomoyo/profile, 其 格式 是 : 第 1 行 是 轮廓 的 版 本 号 ; 











N 




















其 后 各 行 开始 于 一 个 代表 轮廓 记录 号 的 数字 ， 随 后 是 一 个 “-” 之 后 是 记录 的 子 类 型 ， 最 后 是 

















对 应 的 值 。 上 面 文件 中 第 2 到 第 4 行 共同 构成 了 一 个 记录 号 为 0 的 轮廓 记录 。 
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下 面 先 看 一 下 轮廓 记录 子 类 型 2: 
(12 COMMENT 
这 部 分 就 是 一 个 描述 性 字符 串 ， 类 似 代码 中 的 注释 。 比 如 : 
COMMENT=-----Learning Mode----- 
上 例 表 示 这 条 轮廓 记录 让 系统 工作 在 Tomoyo 学 习 模式 中 。 
(2) PREFERENCE 

这 部 分 包含 两 个 子 项 ， 见 表 9-1. 





















































表 9-1 轮廓 的 PREFERENCE 



































max audit log 内 核 中 保留 的 Tomoyo 日 志 记 录 的 最 大 记录 数 
max learning entry 在 学 习 模 式 中 ， 最 多 能 为 一 个 域 添加 多 少 条 策略 
这 两 个 选项 都 和 内 核 分 配给 Tomoyo 的 内 存 相 关 。 
(3) CONFIG 





这 部 分 包含 三 个 子 部 分 ， 见 表 9-2。 


表 9-2 轮廓 的 CONFIG 

















































































































grant log 当 操 作 被 允许 时 ， 是 否 生 成 日 志 记 录 
i 当 操 作 被 拒绝 时 ， 是 否 生 成 日 志 记录 
mode 四 个 值 中 取 一 个 :disabled、learning、permissive、enforcing 
其 中 mode 最 重要 ， 它 的 取 值 的 含义 是 : 
@“disabled” 表 示 Tomoyo 不 起 作用 。 
@“learning” 表 示 遇 到 不 符合 策略 的 访问 请 求 时 ，Tomoyo 不 会 拒绝 访问 ， 但 会 将 访问 请 
求 转换 为 策略 加 入 内 核 的 策略 表 中 。 

















“permissive” 表 示 遇 到 不 符合 策略 的 访问 请 求 时 ，Tomoyo 不 会 拒绝 ， 但 是 也 不 会 将 其 
放 入 策略 中 。 

@“enforcing” 表 示 遇 到 不 符合 策略 的 访问 请 求 时 ，Tomoyo 会 拒绝 其 访问 。 

“disabled” 和 “permissive” 的 区 别 在 于 ，permissive 会 产生 日 志 ，disabled 不 会 ， 也 就 是 说 ， 
在 disabled 模式 下 ，grant log 和 reject log 这 两 个 参数 没有 作用 。 举 个 例子 : 



























































CONFIG={ mode-learning grant log-no reject log-yes } 





























上 述 轮 廓 语句 的 意思 是 :这 条 轮廓 记录 让 系统 工作 于 学 习 模 式 ， 符 合 策略 的 访问 不 会 产 和 9 
日 志 记 录 ， 不 符合 策略 的 访问 会 产生 日 志 记 录 。 
神奇 的 是 ,，“CONFIG” 可 以 被 用 来 实现 细 粒 度 控 制 ， 见 表 9-3。 





In 












































K 9-3 轮廓 CONFIG 的 细 粒 度 






























































CONFIG 作用 于 所 有 的 操作 许可 

CONFIG::file 只 作用 于 文件 相关 的 操作 许可 
CONFIG::network 只 作用 于 网 络 相 关 的 操作 许可 

CONFIG: misg 只 作用 于 其 他 操作 (目前 只 有 一 个 ENVIRON) 
































C Jl http://tomoyo.sourceforge.jp/2.5/chapter-9.html.en。 
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举 个 例子 ; 


CONFIG: 
CONFIG: 











:file={ mode-learning grant log-no reject log-yes ] 








:network-( mode-enforcing grant log-no reject log-yes ] 


文件 相关 的 操作 处 于 学 习 模式 ， 网 络 相 关 的 操作 处 于 强制 模式 。 














还 可 以 更 细 ， 
CONFIG: 
CONFIG: 











对 具体 操作 规定 模式 ， 举 个 例子 : 


:file={ mode-enforcing grant log-no reject log-yes } 








:file::getattr-( mode-disabled grant log-no reject log-yes ] 





文件 的 getattr 操作 处 于 disabled 模式 ， 文 件 的 其 他 操作 处 于 强制 模式 。 
综合 起 来 看 一 个 轮廓 的 例子 : 








PROFI 


E VERSION-20110903 





0-COMMENT-disabled 








0-PREFE 








RENCE-( max audit log-1024 max learning entry-2048 ] 





0-CONFIG={ mode-disabled grant log-yes reject log-yes } 
1-COMMENT-misc 














1 -PREFE 








RENCE={ max audit log-1024 max learning entry=2048 ] 





1-CONFIG-í( mode-permissive grant log-no reject log-yes 








1-CONFIG::file-( mode-learning grant log-no reject log-yes ] 
1-CONFIG::file::getattr-( mode-disabled grant log-no reject log-yes } 

















1-CONFIG::network-( mode-enforcing grant log-no reject log-yes ] 

















这 个 轮廓 文件 定义 了 两 个 记录 。 其 中 0 号 记录 占 了 3 行 , 1 号 记录 占 了 6 行 。! 号 记录 规定 
对 文件 的 getattr 操作 , Tomoyo 工作 于 disabled 模式 ; 对 文件 的 其 他 操作 , Tomoyo 工作 于 learning 
模式 ; 对 network 的 所 有 操作 ，Tomoyo 工作 于 enforcing 模式 ， 对 其 他 操作 ，Tomoyo 工作 于 





permissive 模式 。 

















1. 轮廓 和 策略 
看 一 下 前 面 举 过 的 例子 : 























root@ubuntu-desktop:/sys/kernel/security/tomoyo# cat domain policy 


Xkernel» /sbin/init /sbin/getty /bin/login /bin/bash 


use profile 1 < 使 




















] 1 号 轮廓 记录 





use group 0 


file execute /bin/ls 
file write /dev/null 


Xkernel» /sbin/init /usr/sbin/sshd 


use profile 0 < 使 用 0 号 轮廓 记录 














策略 文件 定义 了 系统 中 所 有 域 的 策略 。 每 个 域 的 策略 的 格式 是 : 第 一 行 是 域 的 标识 ， 也 就 
是 进程 的 执行 历史 ， 第 二 行 是 域 使 用 的 轮廓 记录 ， 不 同 的 域 可 以 使 用 不 同 的 轮廓 。 这 种 设计 又 
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从 另 一 个 角度 增加 了 Tomoyo 的 灵活 性 。 

2. 轮廓 和 名 字 空 间 

结合 名 字 空 间 ， 轮 廓 的 定义 可 以 有 些 变化 ， 它 的 记录 各 部 分 的 头 部 可 以 标记 上 名 字 空 间 ， 
车 没有 标记 则 认为 属于 “<kernel>”。 下 面 举 个 例子 : 


HA 











PROFILE VERSION=20110903 

0-COMMENT=disabled 

0-PREFERENCE={ max audit 10g-1024 max learning entry-2048 } 

0-CONFIG={ mode-disabled grant log-yes reject log-yes } 
«/usr/sbin/httpd» 0-COMMENT------ Learning Mode----- 

«/usr/sbin/httpd» O0-PREFERENCE-( max audit log-1024 max learning entry-2048 } 
«/usr/sbin/httpd» 0-CONFIG-( mode-learning grant log-no reject log-yes } 



























































也 就 是 说 ， 轮 廓 记录 号 和 名 字 空 间 有 关 。 上 例 中 有 两 个 0 号 记录 ， 一 个 属于 “<kemel>” 




















名 字 空 间 , 男 一 个 属于 “</usr/sbin/httpd>” 名 字 空 间 。 下 面 看 与 之 相关 的 domain. policy 的 内 容 : 














<kernel> /sbin/init /sbin/getty /bin/login /bin/bash 
use profile 0 < 





使 用 <kernel> 名 字 空 间 的 0 号 轮廓 记录 
use group 0 


file execute /bin/ls 
file write /dev/null 


«/usr/sbin/sshd» /bin/bash 


使 用 </usr/sbin/sshd> 名 字 空 间 的 0 
use profile 0 < 号 轮廓 记录 








9.4. 伪 文 件 系 统 


像 SELinux 一 样 ，Tomoyo 也 利用 了 伪 文 件 系统 作为 用 户 态 进程 和 内 核 交 互 的 接口 ， 不 过 
Tomoyo 没有 自己 发 明 新 的 文件 系统 ， 而 是 使 用 了 内 核 中 标准 的 安全 文件 系统 ， 即 securityfsS 。 



























































































































































securityfs 通常 挂 载 在 /sys/kernel/security/，Tomoyo 在 其 下 添加 了 一 个 子 目 录 “tomoyo” 内 容 见 
EA. 
表 9-4 /sys/kernel/security/tomoyo/ 下 的 文件 
文件 名 含义 

audit 这 是 一 个 只 读 接口 ， 用 户 态 进程 通过 它 读 取 内 核 Tomoyo If] yb ELS 

domain policy 户 态 进程 通过 这 个 接口 读 取 或 写 入 内 核 中 所 有 域 的 策略 

exception policy 司 上 ， 只 不 过 作用 的 对 象 是 异常 策略 

不 是 每 一 个 进程 都 可 以 写 /sys/kernel/security/tomoyo 下 的 文件 的 。Tomoyo 内 部 维护 了 一 个 “manager” 
manager 列表 , 属于 “manager” 的 进程 才 可 以 写 /sys/kernel/security/tomoyo 下 的 文件 。 此 文件 就 对 应 这 个 “manager” 
列表 。 文 件 内 容 的 每 一 行 是 一 个 域名 或 文件 名 














C 见 http://Iwn.net/Articles/153366/。 
































O 从 这 个 接口 可 以 看 出 Tomoyo 没有 用 内 核 的 Audit 子 系统 。 
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( 续 ) 
文件 名 含义 
profile 户 态 进程 通过 这 个 接口 读 取 或 者 导入 内 核 中 所 有 的 轮廓 
query 在 enforcing 模式 ， 这 个 接 于 对 访问 的 再 授权 
self domain 户 进程 通过 这 个 接口 可 以 读 取 或 修改 自己 的 域 
户 态 进 程 通过 这 个 接口 可 以 读 取 当 前 策略 违反 情况 和 内 存 使 用 情况 ， 还 可 以 通过 此 接口 写 入 一 些 
Tomoyo 内 存 的 限额 配置 
version 户 态 进程 通过 这 个 接口 可 以 读 取 当 前 Tomoyo 的 版 本 
户 态 进 程 通过 这 个 接口 可 以 了 解 系统 中 某 个 进程 所 在 的 域 。 方 法 是 先 写 入 一 个 进程 号 ， 再 读 出 此 进 
.process status i 
程 对 应 的 域 
同 SELinux 一 样 ， 进 程 不 能 随意 修改 自己 的 域 。Tomoyo 通过 策略 规定 进程 通过 伪 文 件 接 


























可 以 动态 改变 的 域名 。 








举 个 例子 : 


























task manual domain transition «kernel» //apache /www.tomoyo00.com 








这 表示 进程 可 以 通 





过 伪 文 件 接 














“<kernel> //apache /www.tomoyo00.com" o 


Bh gd 


I^ 一 口 


9.5 


fr Linux 内 核 $ 个 安全 模块 中 ，Tomoyo 是 很 有 特色 的 一 个 。Tomoyo 的 特 1 
总 体 来 说 , 作者 感觉 Tomoyo H 


日 本 开 





发 团队 。 


Tomoyo 的 设计 思路 和 Linux 主线 的 安全 
主线 ，Linux 安全 团队 增加 了 若干 与 路 径 安 全 相关 的 LSM 钩子 。 但 是 ， 昌 








仍然 不 能 包含 Tomoyo 全 部 的 功能 。 


安全 模块 : 
于 内 核 主线 2 
或 许 是 | 



































思路 。Tomoyo 的 灵活 的 细 

Tomoyo 的 男 一 个 特 1 
过 伪 文 件 接口 呈现 给 用 户 
精心 设计 的 基于 ncurses 的 “ 准 
全 模块 中 最 好 的 。 


一 个 分 去 





TX 


以 内 核 补丁 的 方式 发 布 ; 








本 ] 











开发 团 











SF dans 和 Linux ERHI “K2 




















Ti 








96 参考 资料 


读者 可 参考 http://tomoyo.osdn.jp/。 





习题 


Tomoyo 的 用 户 态 工 


度 管理 





























色 是 易 用 性 
的 策略 是 二 进 带 
图 形 化 ” 

















发 团 





给 


一 局 








| 格式 的 ， 


^ 















































LHA R 


好 的 易 





用 性 。 





HIPSI 








队 有 些 不 








^ 
> 


足以 让 它 在 Linux 
。Tomoyo 呈现 给 月 





致 。: 


因此 ，Tomoyo 是 5 个 安全 模块 中 唯 
一 个 分 文 以 内 核 模 块 的 方式 发 布 ; 











队 与 Linux 主线 











开发 团 
当初 为 了 接纳 Tomoyo 进入 Linux 
TESH, Linx 主线 





“/sys/kernel/security/tomoyo/self domain” 将 自己 的 域 改 为 


色 来 自 其 背后 的 
队 有 些 “ 隔绝”， 






































个 发 布 三 个 分 支 的 


个 分 


分 文 存在 














本 





Tomoyo 





ENT 








用 户 需 要 男 外 使 用 工具 


内 核 5 个 安全 模块 中 
昌 户 的 策略 是 文本 格式 的 ， 而 SELinux 通 
来 分 析 策 略 。Tomoyo 








他 安全 模块 的 新 疾 

















占据 一 席 之 地 。 


使 Tomoyo 的 用 户 体 验 是 5 个 Linux 内 核 安 











试 试 使 用 Tomoyo 的 用 户 态 工 




















分 析 某 个 应 用 的 


行为 。 提 示 ， 将 应 用 所 在 的 域 置 为 学 习 模式 ， 查 看 内 核 学 到 的 策略 。 比 较 一 下 用 这 种 方式 得 到 
的 应 用 行为 状况 与 用 























pau éé 
HH A 


strace” 得 到 的 应 





























行为 状况 的 异同 。 





103 


10.1 


简介 


AppArmor 源 于 1998 年 WireX 公司 开 


第 10 草 





AppArmor 





发 的 SubDomain。WireX 将 SubDomain 集成 进 一 个 


名 为 Immunix 的 Linux 发 行 版 。 随后 ,， WireX 公司 的 名 字 也 更 改 为 Immunix。 在 2005 Æ, Novell 


收购 了 Immunix 公司 。 收 购 的 目的 就 是 为 了 Immunix 3 


到 了 2007 年 , Novell 放弃 了 AppArmor， 裁 撤 了 AppArmor 的 


的 开 到 2009 4 





Merz 


























发 停滞 。 











LEF 





AppArmor 的 开发 了 


系统 的 安全 ! 它 只 会 为 特别 标明 的 
J 


同 Tomoyo 





UC. AppArmor, AH H, 
这 样 做 当然 不 够 安全 ， 但 是 却 易于 使 用 。 











10.2. 机 制 


AppArmor 的 机 制 也 是 “类 型 














块 中 最 容易 学 习 和 使 用 的 。 




































































题 : 域内 操作 许可 和 域 间 转 换 规则 。 
























































































































































背后 的 SubDomain。 为 了 突出 这 个 安全 产 
品 ，Novell 将 SubDomain 更 名 为 AppArmor， 意 思 是 “Application Armor" 应 用 装甲 。 转 眼 
开发 团队 。 这 直接 导致 AppArmor 
E5 H, 维护 Ubuntu 开发 的 Canonical 公司 接手 了 AppArmor 的 开发 和 
维护 工作 。 在 Canonical 公司 的 努力 下 ，AppArmor 在 2010 年 7 月 终于 进入 了 Linux 主线 。 
始 得 相当 早 ， 却 是 几 个 主要 安全 模块 中 最 后 一 个 被 Linux 主线 接受 的 。 
一 样 ，AppArmor 也 是 基于 路 径 的 。AppArmor 的 独特 之 处 在 于 它 并 不 关注 全 
进程 提供 强制 访问 控制 ， 其 他 的 进程 都 工作 在 不 受 控 制 的 
真是 物 如 其 名 ， 它 为 某 个 或 某 些 应 用 提供 安全 防护 。 
它 的 推 尝 者 说 AppArmor 是 内 核 几 个 主要 安全 模 
型 增强 ”。 “类 型 ”又 可 被 称 为 “ 域 ”。 谈 到 域 ， 还 是 两 个 老 问 


一 些 还 未 纳入 Linux 主线 的 AppArmor 新 特性 。 作 者 所 分 析 的 是 Linux 3.14-rc4， 如 果 读 者 使 用 


的 是 Ubuntu， 下面 的 AppArmor 分 析 可 能 和 读者 所 看 到 的 略 有 不 同 。 


AppArmor 的 开发 者 和 维 


10.2.1 操作 许可 


在 AppArmor 代码 : 






































security/apparmor/include/audit.h 


enum aa 


O 


Oo Oo 





ops 
P NULL, 


P SYSCT 





O 下面 这 个 链接 提供 
104 





P CAPABL 


di, 














> FIRER T AppArmor 眼中 的 操作 : 





护 者 是 开发 Ubuntu 的 Canonical 公司 。 所 以 在 Ubuntu 的 内 核 中 有 






































共 了 一 种 方法 来 让 整个 系统 处 在 AppArmor 的 控制 之 下 : http://wiki.apparmor.net/index.php/FullSystemPolicy 


7h 
HI 





10 章 AppArmor 





o Qoo o o 


O O 


O OO © OOo Oo OO0 OO OO 


OO O0Oo000 000000 Oo 





























P CHMOD, 

P CHOWN, 

P GETATTR, 
P OPEN, 
































P LISTEN, 
P ACCEPT, 

P SENDMSG, 

P RECVMSG, 

P GETSOCKNAM 
P GETPEERNAME, 
P GETSOCKOPT, 
P SETSOCKOPT, 
P SOCK SHUTDOWN, 





加 





























P PTRACE, 








P EXEC, 
P CHANGE HAT, 











P CHANGE PROFILE 











P CHANGE ONEXEC, 











P SETPROCATTR, 
P SETRLIMIT, 








P PROF REPL, 
P PROF LOAD, 














P PROF RM, 
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深入 





































































































究 AppArmor 的 代码 之 后 ， 作 者 发 现 上 述 代码 # 




















不 是 为 了 访问 探 人 





由， 而 是 为 了 在 输 


出 日 志 消 息 时 体现 操作 类 型 的 。 而 且 上 面 只 是 一 个 框架 ， 有 些 部 分 还 没有 完成 ， 比 如 
*^OP SYSCTL", 只 有 定义 没有 使 用 。 
用 于 访问 控制 的 是 下 面 这 些 代码 : 
security/apparmor/include/file.h 
define AA MAY CREATE 0x0010 
define AA MAY DEL 0x0020 
define AA MAY META WRITE 0x0040 
define AA MAY META READ 0x0080 
define AA MAY CHMOD 0x0100 
define AA MAY CHOWN 0x0200 
define AA MAY LOCK 0x0400 
define AA EXEC MMAP 0x0800 
define AA MAY LINK 0x1000 
define AA LINK SUBSET AA MAY LOCK /* overlaid */ 
define AA MAY ONEXEC 0x40000000 /* exec allows onexec */ 
define AA MAY CHANGE PROFILE 0x80000000 
define AA MAY CHANGEHAT 0x80000000 /* ctrl auditing only */ 


























上 面 这 些 代 码 只 是 文件 部 分 的 操作 许可 。AppArmor 不 止 可 以 对 文件 操作 进行 控制 ， 还 可 
以 对 其 他 客体 对 象 进行 访问 控制 ， 只 不 过 对 其 他 客体 对 象 的 访问 控制 没有 像 文 件 那样 有 明 胡 
常量 定义 。 下 面 看 一 下 代码 : 


fini 





在 Linux 3.14-rc4 主线 中 
H) 《rlimit)。 在 代码 ! 
和 rlimits。 对 于 能 力 , AppArmor 判断 进程 所 需 的 能 力 是 否 包含 在 结构 aa. profile 的 成 员 caps ' 


对 于 资源 限制 ，AppArmor 判断 进程 当前 的 资源 是 否 小 于 aa_profile 的 成 员 rlimits 中 的 相关 项 。 


Fifi 
































security/apparmor/include/policy.h 


struct aa profile { 


[0] 


[0] 


[0] 


truct aa profile 


struct aa namespace *ns; 


truct aa file rules file; 
struct aa caps caps; 


truct aa rlimit rlimits; 


char *dirname; 





}; 


| rcu *parent; 





struct dentry *dents[AAFS PROF SIZEOF]; 
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的 


FP 的 AppArmor 可 以 对 三 种 客体 进行 访问 控制 : 文件 、 能 力 和 资源 限 
， 这 三 种 客体 的 访问 控 


BIEN XI NEST aa profile 的 成 员 file. caps 














Haa caps 和 aa rlimit 的 定义 : 





security/apparmor/include/capability.h 
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struct aa caps { 


}; 


kernel cap t allow; 


kernel cap t audit; 
kernel cap t quiet; 
kill; 


extended; 


kernel cap t 


kernel cap t 


security/apparmor/include/resource.h 


struct aa rlimit { 


}; 


Linux 系统 中 的 客体 类 型 很 多 ，AppArmor 只 对 其 中 一 小 部 分 施加 了 强制 访问 控 什 
不 太 合 平 逻 辑 的 是 AppArmor 





[5€ Linux 的 


unsigned int mask; 
struct rlimit limits[RLIM NLIMITS]; 








BW. EANN, 





主 访问 控 人 




















里 也 交 给 了 属于 自主 访问 控制 的 能 力 机 制 : 具有 CAP MAC ADMIN fi 








AppArmor 策略 ， 尽 管 AppArmor 可 以 对 能 力 进 行 访问 控制 。 


最 后 
络 ) 的 访问 控 和 


强 








; 
R 调 








Xà, AppArmor 的 天 
JP 








10.2.2” 域 间 转 换 


同 Tomoyo 一 样 ，AppArmor Ist 
进程 所 执行 的 文件 的 路 径 决定 的 。Tomoyo 会 不 厌 


























H, 
E 要 是 








bU; ej fn 

















行 过 的 文件 的 路 径 都 记录 在 进程 的 域 中 。AppArmor 不 同 ， 它 





径 作为 域 。 


AppArmor 将 域 设 计 成 一 种 酌 


fH SET 





























bh. RREH 











Eri TEASER 





















































运行 时 


转换 会 反映 在 策略 上 ， 需 要 策 


1. 文件 执行 


AppArmor H 
结果 是 下 面 : 
(1) 根据 文件 名 找到 域 ， 转 换 到 文 们 


化 。 





F 相 关 ， 所 以 在 进程 








站 机 制 是 基于 文件 路 径 





FP 的 域 与 进程 所 执行 的 文人 
1L 种 情况 之 





























1) 在 当前 





域 中 存在 相关 的 子 域 ， 转 换 到 子 域 。 








2) 不 存在 子 域 , 或 不 允许 转换 到 子 域 , 在 当前 域外 存在 一 个 以 被 执行 的 文 从 





的 域 ， 转 换 到 那个 外 部 域 。 
(2) 留 在 当前 域 。 
G) 转换 到 “不 受 控制 ”(unconfined〉 的 域 。 





10.1 节 说 过 AppArmor 的 设计 主旨 是 针对 单个 应 
一 般 情况 下 ，AppArmor 的 策略 



































eu 
只 能 覆盖 











一 部 分 进程 。 系 统 

















1。 其 他 部 
将 对 自身 策略 的 
E 力 的 进程 可 以 修改 





W 





o 











F 发 还 在 进行 中 ， 新 的 AppArmor 增加 了 对 新 型 客体 (如 网 


的 。 在 AppArmor 中 的 域 























只 会 


H 








烦 地 将 进 
将 最 后 一 次 执行 的 文 从 


两 条 ， 一 是 执行 文件 
各 允许 。 





程 以 及 进程 的 祖先 所 执 
的 路 








状 结构 ， 域 下 可 以 有 子 域 。 这 种 设计 的 目的 是 让 进程 的 域 转 
换 受 到 额外 的 限制 。 假 设 系统 中 有 A. B. C 三 个 域 。 系 统管 理 
转换 。 域 A 下 又 有 a、b、c 三 个 子 : 
由 出 策略 让 域 B 和 域 C 直接 转换 到 域 A 的 子 域 a、b、e。 
和 其 他 安全 模块 一 样 ， 在 AppArmor 中 域 间 转 换 的 途径 有 
我 改变 。 同 样 ， 域 间 





员 定 制 策略 允许 这 三 个 域 互相 
加 策略 允许 域 A 转换 到 子 域 a、b、c， 














Jur xfi 


F 所 对 应 的 域 。 这 种 情况 又 分 为 两 利 


F 时 就 有 可 能 引起 域 的 变 

















情况 : 





的 文件 





j 的 安全 ， 而 不 致力 于 整个 系统 的 安全 。 


其 他 进程 都 工作 在 不 受 控制 的 状 
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态 ， 这 些 进程 的 域 就 是 “unconfined”。 不 仅 如 此 ，AppArmor 的 策略 还 允许 进程 将 域 转换 为 
“unconfined”， 从 受 控制 的 状态 转换 到 不 受 控制 的 状态 。 
2. 自我 改变 
AppArmor 的 域 的 第 二 种 转换 方式 是 通过 伪 文 件 接口 proc/[pidj/attvcurrent。 这 种 转换 不 能 
为 所 欲 为 ， 需 要 受到 几 个 条 件 的 限制 ; 
CG) 只 能 改进 程 自己 的 域 ， 不 能 改 别 的 进程 的 域 。 
(2) 如 果 进 程 不 是 处 在 “unconfined” 状 态 , 并 且 进 程 的 no_new_privs° 被 置 位 ， 则 不 能 




























































































(3) 如 果 进 程 不 是 处 在 “unconfined” 状 态 ， 并 且 进 程 的 no_new_privs 未 被 置 位 ， 则 需要 
策略 允许 改动 。 
“自我 改变 ”又 有 两 种 方式 ， 第 一 种 方式 是 向 /proc/self/attr/current 中 写 入 “changeprofile 
NewDomain”。 如 果 策 略 允 许 , 那么 执行 后 进程 的 域 就 是 “NewDomain”。“changeprofile” 是 “ 单 
程 车 票 ” 第 二 种 方式 “changehat” 是 “往返 车 票 ”。 第 二 种 方式 是 向 /proc/selBattvcurrent P 
入 “changehat token^hatdomain”, 如 “changehat 1234^hat”, 如 果 策 略 允 许 ， 那 么 执行 后 进程 的 
域 就 是 “hat”。 之 后 进程 再 向 /proc/self/attr/current 中 写 入 “changehat 1234”， 进 程 的 域 就 恢复 为 
原先 的 域 了 。 上 面 例子 中 的 “1234” 称 为 令 牌 (token)， 它 是 进程 和 内 核 之 间 的 “小 秘密 ”， 专 
门 用 来 让 进程 返回 原先 的 域 。 
“changeprofile” 可 以 用 来 做 域 间 转 换 ， 包 括 转 换 到 外 部 域 和 转换 到 子 域 。“changehat” 只 
月 于 父 域 转换 到 子 域 。 
3. 命名 空间 
AppArmor 也 提供 了 命名 空间 (namespace) 的 概念 ， 不 同 命名 衬 间 中 策略 配置 相互 隔离 ， 
不 同 的 命名 空间 中 同名 的 域 可 以 有 不 同 的 策略 。 在 实现 中 命名 空间 是 一 个 被 “:” 包 于 的 字符 串 : 
































1 



































































































































anp 
CC 
X 












































:namespace://domainname 


其 中 “/” 是 可 选项 。 
切换 命名 空间 只 能 通过 “changeprofile ”方式 ， 也 就 是 向 /proc/self/attr/current 中 写 入 


* 'namespace://domainname ”。 














10.3 ”策略 语言 


AppArmor 的 策略 语言 并 不 复杂 ， 但 是 文档 太 少 。 要 想 完 整地 描述 AppArmor 的 策略 语言 ， 
需要 阅读 AppArmor 用 户 态 工具 的 源 代码 。 下 面 举 个 例子 ， 简 单 描述 一 下 : 















































@ {LIBVIRT}=” libvirt ” 
/usr/sbin/libvirtd { 


#include <abstractions/authentication> 





capability kill, 
capability net admin, 
/bin/* PUx, 





OQ 关于 no_new_privs， 可 以 参考 内 核 文档 prctl/no_new_privs.txt。 
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/sbin/* PUx, 
audit deny /sbin/apparmor parser rwxl, 
change profile -> G(LIBVIRT)-[0-9a-f]*-[0-9a-f]*, 
rlimit data <= 100M, 

} 


AppArmor 的 策略 语言 允许 使 用 include 语句 包含 一 个 已 有 的 策略 文件 。 客体 类 别 capability 
和 rlimit 比较 简单 ，capability 列 出 允许 的 能 力 ，rlimit 列 出 限定 的 资源 值 。 
客体 类 别 文件 略 复杂 。 
其 基本 操作 许可 为 : r GR) w CHO. a (添加 )、1 CHEFS), k Ci), m CŒ mmap 的 内 
存 中 执行 )、x〔 执 行 )。x 又 可 以 有 若干 前 级 ， 比 如 “PUx”。 下面 对 前 级 做 个 分 析 ， 见 表 10-1. 















































表 10-1 AppArmor 执行 (x) 操作 的 前 级 



























































p 转换 到 与 被 执行 文件 的 文件 名 匹配 的 域 中 ， 不 清理 进程 环境 变量 
P 转换 到 与 被 执行 文件 的 文件 名 匹配 的 域 中 ， 清 理 进 程 环境 变量 

c 转换 到 与 被 执行 文件 的 文件 名 匹配 的 子 域 中 ， 不 清理 进程 环境 变量 
C 转换 到 与 被 执行 文件 的 文件 名 匹配 的 子 域 中 ， 清 理 进程 环境 变量 
u 转换 到 不 受 控制 的 域 Cunconfined) 中 ， 不 清理 进程 环境 变量 

U 转换 到 不 受 控制 的 域 Cunconfined) 中 ， 清 理 进程 环境 变量 























i 维持 域 不 变 











这 些 前 绥 可 以 组 合 使 用 ， 例 如 “pix”， 意 思 是 先 找 有 没有 与 被 执行 文件 匹配 的 域 ， 如 果 没 
有 就 维持 当前 域 不 变 。 当 然 也 不 是 所 有 前 组 都 可 以 组 合 的 ， 例 如 “p” 和 “了 P”“p” 和 “c” 就 
不 能 组 合 。 

不 知 读者 是 否 注意 到 ， 一 条 策略 语句 的 头 部 可 以 有 修饰 符 ， 例 如 下 面 列 出 的 语句 : 















































audit deny /sbin/apparmor parser rwxl, 


audit 表示 记录 日 志 ，deny 表示 拒绝 访问 。deny 的 引入 很 重要 ， 有 了 它 ，AppArmor 可 以 基 
于 黑 名 单 进行 访问 控制 。 白 名 单 是 指 策 略 只 列 出 允许 的 操作 ， 没 有 列 出 的 都 不 被 允许 。 黑 名 单 
则 相反 。 下 面 看 个 例子 : 






























































/bin/my-shell ( 

file, 

capability, 

deny /home/zhi/my-test r, 
} 


这 个 策略 允许 处 于 /bin/my-shell 域 的 进程 做 任何 操作 ， 除 了 读 文件 /home/zhi/my-test。 
下 面 再 看 一 个 “changehat” 的 例子 : 









































include «tunables/global» 
/usr/lib/apache2/mpm-prefork/apache2 { 
finclude «abstractions/base» 


finclude «abstractions/nameservice» 
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capability kill, 
/ rw, 

/** mrwlkix, 
^DEFAULT URL ( 


include «abstractions/base» 





include «abstractions/nameservice» 


/ rw, 
/** mrwlkix, 
} 
} 


hat 子 域 的 定义 需要 前 级 “人 ^”。 


10.4 模式 











AppArmor 规定 了 四 种 工作 模式 : enforce、complain、unconfined、kill。 像 其 他 安全 模块 一 样 ， 
enforce 就 是 严格 按照 策略 办 事 ， 不 符合 策略 的 就 拒绝 访问 请 求 ，complain 是 允许 访问 请 求 ， 但 会 
把 违反 策略 的 访问 请 求 记录 到 日 志 中 ; unconfined 就 是 和 没有 AppArmor 一 样 ，AppArmor 不 对 访 
问 请 求 做 控制 。 不 同 的 是 kill， 这 种 模式 下 不 仅 拒 绝 访问 请 求 ， 还 会 将 违反 策略 的 进程 杀 死 。 

每 个 域 都 有 自己 的 工作 模式 。 不 同 的 域 可 以 工作 在 不 同 的 工作 模式 之 中 。 规 定 工作 模式 的 
方法 是 在 域名 后 添加 “flags” 参 数 。 举 个 例子 : 






















































































/usr/bin/firefox flags-(complain)( 


) 


10.5 ALRK 


10.5.1 proc 文件 系统 


/proc/[pid]/attr 目录 及 其 下 文件 是 SELinux 引入 内 核 的 ， 其 他 安全 模块 也 可 以 用 它 来 实现 功 
能 。AppArmor 用 到 了 /proc[pidj/attr 目录 下 的 部 分 文件 : current. prev. exec. 

(12 current 

此 文件 可 读 可 写 。 读 时 返回 进程 所 在 的 域 。 写 时 又 分 两 种 情况 : 

1) changehat 

写 入 一 行 : 





















































changehat «token»[^«hat name>] 


举 个 例子 : 





changehat 1234^hat1 
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意思 是 转 到 “hatl1” 子 域 ， 同 时 记录 “1234” 作 为 与 之 对 应 的 令 牌 。 这 个 令 牌 是 在 从 子 域 返回 
时 用 到 的 ， 例 如 : 




















changehat 1234 


就 会 从 子 域 “hat1” 返 回 刚才 的 父 域 。 
2) changeprofile 
语法 是 : 





changeprofile [:<namespace>:]<profile> 


(2) prev 
显示 前 一 个 域 的 名 字 。“ 前 一 个 域 ” 特 指 在 使 用 “changhat” 机 制 转换 域 时 ， 内 核 中 保留 的 
父 域 〈 前 一 个 域 )。 

(3) exec 

这 个 文件 的 操作 方法 和 “current” 文 件 相 同 。“exec” 文 件 对 应 进程 中 专门 在 execve 系统 调 
用 中 使 用 的 域名 。 


10.5.2. sys 文件 系统 


在 /sys/modules/apparmor/parameters 目录 下 有 很 多 文件 ， 通 过 它们 可 以 动态 调整 或 读 取 
AppArmor 的 运行 状态 。 

(1) audit 

查看 或 设置 审计 (日志 ) 模式 。 文 件 的 内 容 为 一 个 字符 串 : normal. quiet denied. quiet. 
noquiet、all。 从 代码 注释 中 可 以 看 出 这 5 种 模式 的 含义 : 





































































































security/apparmor/include/audit.h 
&define AUDIT MAX INDEX 5 


enum audit mode { 





























AUDIT NORMAL, /* follow normal auditing of accesses */ 
AUDIT QUIET DENIED, /* quiet all denied access messages */ 
AUDIT QUIET, /* quiet all messages */ 

AUDIT NOQUIET, /* do not quiet audit messages */ 

AUDIT ALL /* audit all accesses */ 





}; 


(2) audit header 

查看 或 设置 审计 日 志 消息 中 是 否 出 现 消息 头 部 数据 。 文 件 内 容 为 一 个 字符 :“y”“Y” 与 
“1” 表 示 出 现 ,“n”“N” 与 “0” 表 示 不 出 现 。 

(3) debug 

查看 或 设置 AppArmor 的 调试 模式 。 文 件 内 容 为 一 个 字符 :“y”“Y” 与 “1” 表 示 处 于 调 
试 模式 ,“n”“N” 与 “0” 表 示 不 处 于 调试 模式 。 

(4) enabled 

这 是 一 个 只 读 文件 , 用 于 查看 AppArmor 的 状态 。 其 内 容 为 一 个 字符 ,“Y” 表 示 AppArmor 
处 于 使 能 状态 ， 其 他 表示 AppArmor 不 处 于 使 能 状态 。 
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(5) lock policy 

查看 或 设置 策略 文件 锁 的 状态 。 文 件 内 容 为 一 个 字符 :“y”“Y” 与 “1” 表 示 不 能 修改 策 
略 ,“n2>“N” 与 “0” 表 示 可 以 修改 策略 。 

(6) logsyscall 

和 前 面 的 文件 类 似 ， 这 个 文件 的 内 容 是 一 个 表示 布尔 值 的 字符 。 但 是 这 个 文件 所 对 应 的 布 
尔 值 似 乎 在 内 核 代码 中 没有 用 到 。 

(7) mode 

查看 或 设置 AppArmor 的 整体 模式 。 文 件 的 内 容 是 一 个 字符 串 ， 值 为 下 列 之 一 :“enforce” 
“complain”“kill” 与 “unconfined”。 



















































































(8) paranoid load 

决定 加 载 策略 文件 时 是 否 进行 严格 检查 。 文 件 内 容 为 一 个 字符 :“y”“Y” 与 “1” 表 示 严 
格 检查 ，“n”“N” 与 “0” 表 示 不 做 严格 检查 。 

(9) path max 

查看 或 设置 路 径 的 最 大 长 度 ， 文 件 内 容 是 一 个 表示 长 度 的 整数 。 


10.5.3 securityfs 文件 系统 


同 Tomoyo 一 样 ，AppArmor 也 使 用 了 securityfs， 相 关 的 目录 通常 在 /sys/kernel/security/ 
apparmor。 此 目录 下 包含 4 个 文件 和 两 个 子 目 录 。 下 面 描述 它们 的 用 法 。 

(1) .load 

这 个 文件 用 于 加 载 策 略 。AppArmor 的 策略 和 SELinux 类 似 ， 也 是 二 进 制 格式 的 。 用 户 需 
要 预先 用 一 个 工具 (apparmor_parser) 将 用 户 友好 的 文本 格式 的 策略 文件 编译 为 内 核 更 易 处 理 
的 二 进 制 格式 策略 文件 ， 然 后 再 通过 .load 文件 载 入 内 核 。 

(2) .Teplace 

这 个 文件 用 于 加 载 策略 ， 和 .load 的 区 别 是 ，.load 是 添加 ，.replace 是 替换 。 

(3) .remove 

这 个 文件 用 于 删除 策略 。 删 除 以 域 为 单位 。 

(4) profiles 

这 是 一 个 只 读 文 件 ， 虽 然 文件 允许 位 标记 可 写 ， 但 是 内 核 根 本 没有 实现 此 文件 的 写 函 数 ! 
通过 它 可 以 读 出 所 有 策略 。 
(5) policy 

这 是 一 个 目录 ， 其 下 又 有 两 个 子 目 录 : 

1) namespaces 

其 下 的 文件 或 目录 与 名 字 空 间 有 关 。 

2) profiles 

其 下 的 文件 或 目录 与 域 有 关 。 

(6) features 

这 是 一 个 目录 ， 其 下 有 子 目 录 和 文件 ， 全 部 为 只 读 接口 ， 通 过 它们 可 以 得 到 当前 系统 文 持 
的 AppArmor 特性 2。 举 个 例子 ; 


















































































































































































































































O 阅读 代码 发 现 似乎 这 部 分 和 代码 实际 实现 没有 完全 同步 。 
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$ cat /sys/kernel/security/apparmor/features/file/mask 


create read write exec append mmap exec link lock 


当前 系统 对 文件 相关 的 操作 许可 控制 包括 : create. read. write. exec. append. mmap exec. 
link, lock. 





10.0 总 结 








AppArmor 的 最 大 特点 是 “不 安全 ” 或 者 
的 这 个 特点 体现 在 两 个 方面 : 

(12. AppArmor 设计 的 宗旨 是 安全 加 固 某 个 应 用 或 某 几 个 应 用 。 

(2) AppArmor 提供 方法 让 用 户 可 以 用 黑 名 单 的 方式 定制 策略 。 

AppArmor 这 么 做 有 一 定 道理 。 在 现实 中 ， 一 个 系统 迫切 需要 安全 加 固 的 往往 只 是 一 个 或 
几 个 应 用 。 例 如 一 个 Web 服务器， 只 有 Web 服务 进程 和 外 界 交 流 ，Web 服务 安全 了 ，90% 的 安 
全 问题 就 解决 了 。 

抛 开 安 全 性 ，AppArmeor 的 缺陷 是 文档 。 到 2016 年 2 H, AppArmor 的 文档 还 不 能 算是 完 
善 ， 一些 特性 语 下 不详 ， 一 些 文档 前 后 矛盾 。 一 个 标榜 易 用 性 的 安全 模块 却 没 有 把 文档 做 好 ， 
实在 是 有 些 不 应 该 。 


10.7 参考 资料 








简单 易 用 。AppArmor 





























































































































读者 可 参考 http://wiki.apparmor.net/index.php/Main_Page。 





习题 

















AppArmor 设计 的 宗旨 是 安全 加 固 某 个 或 某 几 个 应 用 。 思 考 一 下 ， 如 何 利 用 AppArmor 来 
加 固 整 个 系统 ? 是 和 否 需要 修改 代码 ? 如 果 不 修改 代码 ， 又 该 如 何 制定 策略 ? 
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Yama 是 一 个 源 自古 印度 语 的 英文 单词 ， 翻 译 成 汉语 就 是 “ 阁 罗 ” 阁 罗 是 印度 神话 中 掌管 





























地 狱 的 神 。 
Yama 可 以 称 为 半 个 安全 模块 ， 说 它 是 “ 半 个 ”， 原 因 是 ; 
(D 它 是 目前 〈3.14) Linux 主线 中 最 简单 的 安全 模块 ， 只 用 到 了 4 个 LSM TAG 3X 
4 个 钩子 函数 都 和 ptrace 相关 。 
(2) 它 没有 一 个 完整 的 安全 概念 在 背后 支撑 ， 多 级 安全 、 基 于 角色 的 访问 控制 、 类 型 增强 
等 都 和 它 无 关 ， 它 是 针对 有 具体 问题 一 一 ptrace 的 安全 加 固 。 
(3) 它 可 以 和 其 他 安全 模块 同时 起 作用 ,系统 里 可 以 既 有 SELinux 的 访问 控制 ， 又 有 Yama 
对 ptrace 的 控制 ， 而 SELinux, SMACK, Tomoyo, AppArmor 这 四 者 之 间 是 互 斥 的 ， 不 能 同时 
存在 。 


11.2 机 制 














































































































先 谈 一 下 ptrace 有 什么 潜在 的 安全 问题 。ptrace 是 一 个 系统 调用 ， 调 用 它 可 以 让 两 个 进程 

形成 “跟踪 ”关系 。 跟 踪 进 程 可 以 查看 和 修改 被 跟踪 进程 内 存 、 寄 存 器 、 信 号 等 ， 可 以 了 解 被 

跟踪 进程 系统 调用 情况 。 也 就 是 说 ， 在 跟踪 进程 面前 ， 被 跟 踩 进程 毫 无 秘密 可 言 。 
Linux 原 有 的 、 自 主 访问 控制 下 的 对 ptrace 的 操作 控制 是 满足 下 列 两 个 条 件 之 一 即 可 : 
(1) 跟踪 进程 的 uid 同时 等 于 被 跟踪 进程 的 uid、euid、suid， 并 且 跟 踪 者 进程 的 gid 同时 等 

于 被 跟 踊 者 进程 的 gid, egid. sgid. 

(2) 跟踪 者 进程 具备 能 力 CAP_SYS_PTRACE。 

看 一 下 代码 : 











Tom 












































































































































kernel/ptrace.c 
static int ptrace may access(struct task struct *task, unsigned int mode) 


( 





const struct cred *cred - current cred(), *tcred; 
tcred - task cred(task); 
if (uid eq(cred-»uid, tcred-»euid) && 

uid eq(cred-»uid, tcred-»suid) && 

uid eq(cred-»uid, tcred-»uid)  && 


gid eq 


( 

gid eq(cred-»gid, tcred-»egid) && 
(cred-»gid, tcred-»sgid) && 
( 


gid eq(cred-»gid, tcred-»gid)) 
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goto ok; 
if (ptrace has cap(tcred-»user ns, mode)) 
goto ok; 
} 
static int ptrace has cap(struct user namespace *ns, unsigned in 
{ 
if (mode & PTRACE MODE 


return has ns capabili 














| NOAUDIT) 
ty noaudit(current, ns, CAP SYS PTRACE 





E, 


else 


ni 


ty (current, ns, CAP SYS PTRACE 





E 


return has_ns_capabili 


) 


这 里 的 问题 是 ，uid/gid 相同 的 进程 可 以 互相 跟踪 ， 如 果 一 个 进 
的 进程 都 沦陷 。 而 如 果 特 权 进 程 被 攻破 ， 全 系统 的 进程 都 不 能 幸免 。 

Yama 提供 了 四 种 模式 : disabled. relational. capabil 
起 作用 ， 和 没有 它 一 样 。capability 就 是 只 有 在 跟踪 者 进程 具 
跟踪 进程 和 被 跟踪 进程 之 间 形 成 跟踪 关系 。no_attach 就 是 根本 不 允许 外 
系 。relational 是 在 以 下 三 种 情况 之 一 出 现时 允许 形成 跟踪 关系 : 

(1) 跟踪 者 进程 和 被 跟踪 者 进程 
进程 、 祖 父 进程 …… 

(201 
Wy) 进程 跟 踩 。 

(GO 跟踪 者 进 


口 


E 
























































F o 











H 


EF 何 进程 





























me 
IZN 


























5 
AEN CUN 











曾经 通过 系统 调用 pretl 的 选项 PR_SET_PTRACER, 声明 






































程 上 


LAN 


$ CAP SYS PTRACE 能 力 。 





security/yama/yama lsm.c 





in 


( 














if (mode -- PTRACE MODE { 
switch (ptrace scope) { 
case YAMA SCOPE DISABLED: 


/* No additional restrictions. 


| ATTACH) 














5 
break; 
case YAMA SCOPE 


rcu read lock(); 





ELATIONAL: 











SR 





if (!task is descendant(current, child) && 
!ptracer exception found(current, child) && 
!ns capable( task cred(child)-»user ns, CAP SYS PTRACE 
rc = -EPERM; 














rcu read unlock(); 
break; 

case YAMA SCOP 
rcu read lock(); 
if 


rc 





E CAPABILITY: 








EPE 











RM; 


(!ns capable( task cred(child)-»user ns, CAP SYS PTRACE 


t mode) 


被 攻破 ， 与 之 同 uid/gid 
ity. no attach. disabled 就 是 Yama 不 
备 CAP SYS PTRACE 能 力 时 允许 
之 间 形 成 跟踪 关 


之 间 存 在 纵向 亲缘 关系 ， 跟 踪 者 进程 是 被 跟踪 者 进程 的 父 





WEA GR 


t yama ptrace access check(struct task struct *child, unsigned int mode) 


a 
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rcu read unlock(); 
break; 
case YAMA SCOPE NO ATTACH: 
default: 
rc = -EPERM; 

















break; 
} 
} 


} 
































Yama 在 系统 调用 prctl 中 增加 了 一 个 选项 :PR_SET PTRACER， 通 过 它 ， 进 程 可 以 明确 向 
内 核 注 册 自 己 可 以 被 哪个 进程 跟踪 。 举 个 例子 : 


















































prctl(PR SET PTRACER, 1972, 0, 0, 0) 









































这 个 例子 意思 是 : 进程 可 以 被 系统 中 pid 为 1972 的 进程 跟踪 。 如 果 传 入 的 进程 号 是 0， 表 
示 进 程 不 愿 被 任何 进程 跟踪 (有 纵向 亲缘 关系 的 除外 )， 如 果 传 入 的 进程 号 是 -1， 表 示 愿 意 被 任 
何 进程 跟踪 。 


1.3 伪 文 件 系 统 


Yama 的 设计 者 希望 Yama 能 够 和 别 的 安全 模块 同时 起 作用 ， 所 以 Yama 不 能 使 用 
/proc/[pid]/attr 目录 下 的 文件 。Yama 也 没有 使 用 securityfs 文件 系统 , 虽然 使 用 securityfs 不 会 3 
起 和 别 的 安全 模块 的 冲突 。Yama 的 做 法 是 在 /proc/sys/kernel/ 目 录 下 创建 子 目录 yama， 在 子 目 
录 yama 下 创建 文件 ptrace_scope。 这 个 伪 文 件 的 内 容 是 一 个 0 到 3 的 数字 ， 对 应 Yama 的 四 种 
工作 模式 ， 见 表 11-1。 
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表 11-1 Yama 工作 模式 

















值 工作 模式 
0 disabled 
1 relational 
2 capability 
3 no attach 





对 此 文件 的 读 操 作 不 需要 特殊 能 力 ， 写 操作 需要 能 力 CAP_SYS_PTRACE。 
还 有 一 点 需要 注意 ， 一 旦 向 此 文件 号 入 了 3， 就 不 可 以 再 写 入 其 他 值 了 。 背 后 的 含义 就 是 
一 旦 切入 了 最 安全 模式 no_attach， 就 不 可 以 再 变 为 不 安全 模式 了 。 


11.4 REH 


Yama 提供 了 一 个 内 核 编 译 选 项 : CONFIG SECURITY YAMA STACKED, J €, uf 
以 让 Yama 和 其 他 安全 模块 同时 起 作用 
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很 多 人 都 曾经 利用 LSM 机 制 开发 过 自己 的 安全 模块 ， 功 能 或 多 或 少 ， 但 是 这 类 工作 大 都 
未 能 进入 主线 。Yama 是 一 个 特例 。 

从 某 种 角度 看 ，Yama 堪 称 完美 。 首 先 ，Yama 解决 的 是 一 类 实际 的 安全 问题 ， 而 不 是 某 种 
虚无 绿 纵 的 假想 的 安全 威胁 。 其 次 ，Yama 可 以 和 别 的 安全 模块 共存 。Yama 承认 自己 只 做 了 和 
小 一 部 分 工作 ， 如 果 用 户 想 要 更 全 面 的 安全 ， 可 以 启用 另 一 个 安全 模块 来 和 Yama 合作 。 其 实 ， 
内 核 各 个 安全 模块 所 做 的 工作 重复 之 处 甚 多 。 

Yama 的 开发 者 Kees Cook 在 Yama 被 Linux 主线 接收 后 还 曾经 提交 过 新 的 安全 模块 ， 不 过 
没有 被 接收 , 在 Ubuntu 发 行 版 中 , 那些 未 进 主 线 的 新 模块 的 功能 至 少 有 一 部 分 被 合并 入 Ubuntu 
修改 过 的 Yama 之 中 。 
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读者 可 参考 Documentation/security/Yama.txt。 


习题 




















Yama 可 以 和 别 的 LSM 模块 共存 。 阅读 代码 , 看 看 Yama 是 如 何 做 到 和 别 的 LSM 模块 共存 
的 。 思 考 一 下 Yama 的 这 种 作法 可 和 否 推广 到 其 他 LSM 模块 。 
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完整 性 保护 的 目的 可 以 概括 为 一 句 话 : 防止 数据 被 算 改 。 完 整 性 保护 的 手段 就 是 保存 一 个 
从 原始 数据 推导 出 的 度量 值 ， 在 访问 数据 之 前 ， 先 针对 数据 推导 出 当前 的 度量 值 ， 如 果 这 个 度 
量 值 和 原始 的 度量 值 不 一 致 ， 那 么 就 说 明 数 据 已 经 有 了 变化 。 这 样 就 产生 了 两 个 深层 的 问题 ， 
个 是 这 个 度量 值 保存 在 哪里 ， 男 一 个 是 如 何 保证 这 个 度量 值 本 身 不 被 算 改 。 
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12. 简介 


本 章 介绍 Linux 内 核 的 完整 性 子 系统 ， 代 码 位 于 security/integrity 目录 下 。 完 整 性 子 系统 又 
可 分 为 两 个 部 分 : IMA (Integrity Measurement Architecture) 和 EVM (Extended Verification 
Module)。 在 解释 它们 的 具体 含义 之 前 ， 读 者 首先 要 明白 IMA/EVM 是 TCG (Trusted Computing 
Group) 开放 标准 的 一 部 分 。 在 TCG 开放 标准 的 架构 中 ， 可 信 平 台 模 块 〈Trusted Platform Module, 
TPM) 是 一 个 芯片 ， 其 上 层 是 可 信和 启动 (Trusted Boot，TBoot)。 在 实践 中 ， 可 信和 启动 的 一 种 实现 
方式 是 修改 GRUB, 在 其 中 加 入 完整 性 度量 功能 ， 形 成 GRUB-IMA。 在 启动 层 之 上 是 内 核 ， 内 
核 中 含有 TPM 的 驱动 以 及 本 章 要 讲述 的 IMA 和 EVM。 内 核 之 上 是 用 户 态 的 库 和 应 用 , 这 部 分 
包含 可 信和 软件 栈 (Trusted Software Stack) 和 平台 信任 服务 (Platform Trust Services). TCG 开放 
标准 规定 的 可 信 计 算 架 构 如 图 12-1 所 示 。 























































































































































Trusted Platform Module 
Trusted Boot 

Trusted Software Stack 
Trusted Network Connect 
Platform Trust Services 






Applications 








Libraries 














Hardware A 
TPM 








图 12-1 可 信 计 算 架 构 
所 以 ， 首 先 要 了 解 一 下 什么 是 可 信 计 算 (Trusted Computing). 


12.1.1 可 信 计 算 


可 信 计 算 的 首要 问题 是 什么 是 可 信 ， 而 关于 可 信 ， 目 前 还 没有 统一 的 定义 ， 不 同 的 专家 和 
不 同 的 组 织 有 不 同 的 解释 。1990 年 ， 国 际 标准 化 组 织 与 国际 电子 技术 委员 会 SOEC) 在 其 
发 布 的 目录 服务 系列 标准 中 基于 行为 预期 性 定义 了 可 信 性 : 如 果 第 二 个 实体 完全 按照 第 一 个 实 
体 的 预期 行动 , 则 第 一 个 实体 认为 第 二 个 实体 是 可 信 的 。2002 4E, TCG 用 实体 行为 的 预期 性 来 
定义 可 信 : 如 果 一 个 实体 的 行为 总 是 以 预期 的 方式 ， 达 到 预期 的 目标 ， 则 这 个 实体 是 可 信 的 。 
在 人 类 社会 中 ,“ 信 任 ” 是 一 个 模糊 的 概念 ， 可 以 是 百分之百 信任 ， 百 分 之 五 十 信任 ， 不 信 
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任 ; 可 以 今天 信任 ， 明 天 就 不 信任 。 在 计算 机 的 世界 里 很 难 做 到 模糊 化 ，TCG 在 可 信 PC 规范 














中 采用 了 一 种 简单 的 信任 度量 模型 : 



































(1) 二 值 化 : 只 考虑 信任 和 不 信任 两 种 极端 情况 。 
(2) 无 损 化 : 不 考虑 信任 传递 中 的 损失 ， 即 认为 信任 在 传递 过 程 中 没有 损失 。 所 谓 信任 传 



























































递 ， 就 是 甲 信任 乙 ， 乙 信任 两 ， 于 是 甲 也 信任 两。 
G) 用 数据 完整 性 度量 值 充 当 信任 值 : 受 目 前 信任 度量 理论 和 技术 的 限制 ， 还 不 能 直接 度 































































































量 (measure) 计算 机 系统 的 可 信 性 ， 于 是 采用 数据 完整 性 的 度量 值 来 作为 可 信 性 的 度量 值 。 
在 可 信 PC 规范 中 ， 信 任 链 起 始 于 BIOS 启动 块 (Boot Block), BIOS 启动 块 度量 BIOS, 













































































BIOS 度量 启动 加 载 模块 〈boot loader)， 启 动 加 载 模块 度量 OS, OS 度量 应 用 。 一 级 度量 一 级 ， 
一 级 信任 一 级 ， 把 信任 扩展 到 整个 计算 机 系统 。 而 存储 和 保护 度量 值 的 地 方 就 在 TPM (Trusted 











Platform Module). 


TCG 所 定义 的 TPM 是 

































































一 种 SoC (System on Chip) 芯片 ， 如 图 12-2 所 示 。 


密码 运算 处 理 器 持久 性 存储 





性 存储 


平台 配置 寄存 器 








安 
全 
输 
^ 
输 
出 


图 12-2 TPM 架构 





TPM 主要 用 来 管理 密 钥 、 执 行 加 解密 运算 、 数 字 签 名 、 安 全 存储 数据 。 本 章 要 介绍 的 IMA 




































































和 EVM 会 使 用 TPM 管理 的 密 铀 ， 会 利用 TPM 提供 的 PCR (Platform Configuration Register) 














来 存储 完整 性 度量 值 。 
12.1.2 ”完整 性 























完整 性 的 英文 是 “integrity”。 在 维基 百科 上 ，integrity 的 定义 是 :“Integrity is the quality of 
being honest and having strong moral principles; moral uprightness. It is generally a personal choice 
to uphold oneself to consistently moral and ethical standards." (EJ X. F, integrity 对 应 的 汉语 词 
汇 是 “诚信 ”。 人 类 社会 的 诚信 很 难 移植 到 计算 机 的 世界 中 ， 于 是 integrity 就 变 成 了 “完整 性 ”， 
关注 的 焦点 变 成 了 文件 内 容 是 否 被 算 改 。 其 实在 不 改变 程序 内 容 的 情况 下 ， 运 行程 序 的 进程 的 
“诚信 ” 仍 有 可 能 出 问题 。 比 如 某 些 安全 防护 差 的 浏览 器 在 浏览 不 良 网 站 时 会 被 植 入 木马 ， 做 一 
































些 用 户 不 希望 它 做 的 事情 。 
































在 1975 年 的 论文 “Integrity Considerations for Secure Computer 








Systems” 中 ， 研 究 完整 性 的 先驱 K. J. Biba 提出 了 第 一 个 计算 机 领域 的 完整 性 保护 方案 ， 方 案 
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涉及 进程 和 文件 分 级 。 当 高 级 别 进 各 
高 尚 的 人 读 了 一 些 
身份 不 符 的 事情 ， 所 以 他 的 品德 级 别 应 该 随 之 降低 。 

于 实现 很 复杂 ，integrity 在 计算 机 领域 基本 等 同 于 完整 性 ， 即 ， 关 注 于 文件 内 容 是 否 改 


低 。 就 像 一 个 品德 







































































读 到 了 低级 别 的 文件 ， 进 程 本 身 的 完整 性 级 别 也 要 随 之 降 
氏 级 趣味 的 书刊 ， 就 有 可 能 受到 不 良 影响 而 去 做 一 些 与 其 














变 。 衡 量 的 手段 就 是 用 哈 希 算法 计算 出 文件 内 容 的 哈 希 值 。 然 后 比较 这 个 哈 希 值 有 没有 改动 。 





12.1.3 "hj 




















特性 : 


e 对 任意 输入 都 能 很 容易 
e 不 可 能 从 哈 希 值 反 





















































也 计算 出 哈 希 值 。 
出 输入 。 














e 不 可 能 改变 输入 而 不 改变 输入 所 产生 的 哈 希 值 。 























e 同一 哈 希 值 不 可 能 对 应 两 个 不 同 输入 。 














密码 哈 希 算 法 是 包括 数字 签名 在 内 的 信息 
12.1.4 IMA/EVM 


回顾 一 下 ,可 信 计 算 希 望 将 人 类 社会 中 的 信任 模型 移植 入 计算 机 领域 , 但 是 信任 不 好 度量 ， 
完整 性 。 完 整 性 的 本 义 是 诚信 ， 诚 信 在 计算 机 中 无 法 实现 ， 就 再 退 一 步 ， 








于 是 就 退 一 步 ， 使 













































































| 于 完整 性 校 验 的 哈 希 算法 是 密码 哈 希 算法 ， 即 cryptographic hash function。 它 具有 以 下 
































将 文件 的 完整 性 衡量 变 为 判断 文件 内 容 是 否 被 算 改 。 实 现 这 一 目标 的 工具 就 是 密码 哈 希 算法 。 





Linux 内 核 中 的 IMA 和 EVM 专注 于 文件 的 完整 性 保护 , 这 种 保护 的 基础 是 密码 哈 希 算法 。 

















虽然 IMA/EVM 是 可 信 计 算 的 一 个 组 成 模块 ， 但 是 IMA/EVM 的 设计 者 增加 了 一 些 功 能 ， 使 得 





它们 在 没有 可 信 计 算 硬 件 一 一 TPM 的 情况 下 ， 也 可 以 发 挥 














1. IMA 


IMA 从 Linux 2.6.30 
CDD 收集 (collect) 
(2) 存储 (store) 





























始 进 入 Linux 内 核 主线 。 功 能 包括 : 
度量 文件 ， 即 计算 文件 的 哈 希 值 。 
让 放 入 内 核 维护 的 一 个 列表 中 。 并 且 如 果 TPM 硬件 存在 ， 


将 度量 





整 性 保护 的 作用 。 




































































IMA 会 申请 TPM 中 的 一 个 PCR (Platform Configuration Register)。IMA 的 存储 功能 会 扩展 这 个 











PCR， 即 将 度量 值 和 这 个 PCR 中 的 值 进行 计算 ， 将 计算 结果 存 回 PCR. 
如 果 TPM 硬件 存在 ， 使 月 
FE 明 成 为 可 
事先 将 文件 的 完整 性 度量 

















(3) 证 明 (attest) 
签名 。 在 此 基础 上 ， 远 程 训 
(4) 评估 (appraise ) 
内 核 针 对 这 个 值 判断 文件 内 容 是 否 被 算 改 。 
IMA 的 前 三 个 功 



































2. EVM 


EVM 从 Linux 3.3 J 
全 相关 的 扩展 属性 。 安 全 相关 的 扩展 属性 包括 : SELinux 
到 的 “security.SMACK64”， 前 面 提 到 的 IMA 用 到 的 
“security.capability”。 这 些 扩展 属性 的 值 
























































H TPM 对 TPM 分 配给 IMA 的 PCR 的 值 


























同一 批 进入 内 核 的 ， 第 四 个 功能 从 Linux 3.7 开 


F 始 正式 进入 主线 。 它 的 功能 
































展 属性 security.ima 中 ， 





























O 实际 上 ，IMA 本 身 并 没有 直接 用 













































































全 正式 进入 主线 。 





个 : 保护 (protect)， 保 护 文件 的 安 
| 到 的 “security.selinux”，SMACK 用 
“security.ima ", capability 用 到 的 
志 础 。 这 些 值 如 果 被 算 改 ， 安 全 就 无 












































于 证 明 的 代码 ， 它 只 负责 将 度量 值 存 入 相应 的 位 置 ， 这 个 度量 值 可 以 被 其 他 软件 用 于 远程 证 明 。 
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从 谈 起 。 

无 论 IMA 还 是 EVM， 都 不 是 用 来 防护 系统 运行 中 恶意 软件 对 文件 的 破坏 的 ， 系 统 运 行 中 
对 文件 的 保护 是 由 其 他 机 制 ， 比 如 LSM， 来 实施 的 。IMA 和 EVM 针对 的 是 离线 攻击 的 威胁 。 
比如 ， 攻 击 者 在 关机 的 状态 下 ， 将 硬盘 拆 出 ， 插 到 另 一 台 计 算 机 中 ， 修 改 其 中 的 文件 ， 然 后 把 
人 硬盘 插 回 原来 的 计算 机 。 
















































































12.2 ”架构 


12234 钓 子 


F] LSM 一 样 ， IMA/EVM 也 定义 了 一 些 钩子 函数 。 与 LSM 不 一 样 的 是 , IMA/EVM 没有 
个 类 似 security ops 的 结构 体 来 承载 这 些 钩 子 。 因 为 LSM 有 若干 可 以 互相 替换 的 模块 :SELinux、 
SMACK, Tomoyo, AppArmor, Yama, M IMA/EVM 只 此 一 家 ， 别 无 分 店 。IMA WEIT ERA 
包括 : 









































ima file mmap 

ima bprm check 

ima file check 

ima module check 
ima inode post setattr 


ima inode set xattr 


ima inode removexattr 
EVM PYT KAZARA inode 的 属性 (attr) 或 者 inode 的 扩展 属性 〈xattr) 有 关 ， 包 括 ; 


evm inode setattr 























evm inode post setattr 
evm inode init security 
evm inode setxattr 


evm inode post setxattr 


evm inode removexattr 

€ evm inode post removexattr 

F] LSM 很 类 似 , ICE T RE R DELI RR OR e EH. A IMA/EVM 钩子 函数 
F LSM 的 钩子 函数 在 同一 处 被 调用 ， 比 如 ima file mmap 就 在 security mmap file 中 被 调用 。 


12.2.2 策略 


IMA/EVM 同 其 他 Linux 中 的 子 系统 一 样 ， 也 是 定义 机 制 ， 执 行 策略 ， 机 制 和 策略 分 离 。 
EVM 功能 比较 单一 ， 不 需要 策略 的 支持 。 下 面 简单 描述 一 下 IMA 的 策略 : 









































a 


















































rule format: action [condition ...] 


action: measure | dont measure | appraise | dont appraise | audit 








行为 (action) 有 五 种 : measure. dont measure. appraise, dont appraise, audit. measure 
的 含义 是 度量 ， 将 文件 的 完整 性 度量 值 存 储 在 内 核 的 一 个 链表 中 ， 如 果 有 TPM 硬件 存在 ， 还 
722 





















































第 123€ IMA/EVM 



































会 将 此 度量 值 映 射 到 TPM 的 某 个 PCR P. appraise 的 含义 是 评估 , 将 文件 现在 的 完整 性 度量 值 
和 存储 于 文件 扩展 属性 “security.ima” 中 的 度量 值 做 比较 , 返回 一 个 结果 。audit 的 含义 是 审计 ， 
生成 一 条 审计 日 志 消 息 ， 传 给 内 核 审 计 子 系统 。 










































































condition:= [ base | lsm ] [option] 
base: [[func-] [mask=] [fsmagic=] [fsuuid=] [uid=] [fowner=]] 
lsm: [[subj user=] [subj role=] [subj type=] 
[obj user=] [obj role=] [obj type=]] 
option: [[appraise type-]] 








如 果 对 所 有 文件 都 做 度量 或 评估 ， 无 疑 会 对 系统 性 能 产生 较 大 影响 。 所 以 IMA 对 文件 做 度量 
或 评估 ， 一 定 要 有 所 选 择 。 选 择 的 条 件 有 两 个 ， 一 个 是 “base”， 另 一 个 是 “lsm”。 先 看 “base”。 




















i 












































func:- BPRM CHECK | MMAP CHECK | FILE CHECK | MODULE CHECK 

mask:- MAY READ | MAY WRITE | MAY APPEND | MAY EXEC 

fsmagic:- hex value 

fsuuid:- file system UUID (e.g 8bcbe394-4f13-4144-be8e-5aa9ea2ce2f6) 
uid:- decimal value 




















fowner:-decimal value 

















func 的 五 个 值 : BPRM CHECK »JN£45-T A% ima bprm check MMAP CHECK 对 应 钩子 
函数 imap file mmap, FILE CHECK XWV FR. imap file check; MODULE CHECK 对 应 
钩子 函数 imap module check. fsmagic 对 应 内 核 文件 系统 super. block 结构 体 中 的 成 员 s magic 
的 值 ， 比 如 proce 文件 系统 的 super block 的 s magic 的 值 是 0x9fa0 。 全 部 的 值 可 以 在 
/usr/include/linux/magic.h 中 查 到 。 其 他 都 很 简单 ， 不 解释 了 。 

这 里 的 lsm 实际 上 专 指 SELinux, lsm 相关 的 条 件 ， 实 际 上 就 是 和 selinux 相关 的 条 件 ， 因 
为 只 有 selinux 有 subj user. subj role. subj type. obj user. obj role. obj type， 分 别 代表 主体 
] 户 、 主 体 角色 、 主 体 类 型 、 窜 体 用 户 、 客 体 角 色 、 客 体 类 型 。 


个 : appraise type. appraise type 只 有 一 个 值 










































































































































































: imasig， 它 只 会 影响 到 appraise 





option 只 有 
€ 行为 ii 
12.2.3 扩展 属性 


前 面 提 到 ，IMA 的 功能 包括 : 收集、 存储、 证明、 评估。 前 三 个 功能 是 计算 文件 的 完整 性 
度量 值 ， 存 入 内 核 列 表 ， 如 果 有 TPM 硬件 就 同时 将 度量 值 映射 到 TPM 的 PCR 中 ,这 个 值 可 以 用 来 
远程 证 明 。 这 三 个 功能 不 涉及 扩展 属性 。 第 四 个 功能 与 文件 的 扩展 属性 有 关 。 评 估 的 含义 是 在 进程 
存 取 文 件 之 前 ， 内 核 先 判断 文件 的 完整 性 度量 值 和 预先 存 入 到 文件 的 扩展 属性 “securityima” 中 的 
值 是 否 一 致 ， 如 果 一 致 则 允许 存 取 操 作 ， 不 一 致 则 拒绝 。 
EVM 的 功能 是 保证 几 个 安全 相关 的 扩展 属性 的 完整 性 , 在 内 核 安全 相关 的 函数 中 , 会 先 验 
证 扩展 属性 的 完整 性 ， 然 后 进行 安全 操作 。EVM 用 扩展 属性 “security.evm” 存 储 相 关 数 据 。 

那么 ， 谁 来 保证 EVM 的 完整 性 呢 ? 答案 是 使 用 加 密 算法 。 


12.2.4 949] 
回顾 一 下 ，IMA 要 做 完整 性 保护 ， 完 整 性 的 基础 是 文件 的 哈 希 值 ， 这 个 哈 希 值 被 存 入 了 文 
723 
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件 的 扩展 属性 “security.ima” 中 。 为 了 保护 这 个 文件 扩展 属性 的 完整 性 ， 又 对 包括 这 个 扩展 属 
性 在 内 的 几 个 安全 相关 的 扩展 属性 值 进行 一 个 运算 ， 将 运算 结果 存 入 “security.evm” 中 。 然 后 
呢 ? 为 了 保护 扩展 属性 “security.evm” 的 完整 性 ， 再 引入 一 个 扩展 属性 ?显然 是 不 行 的 。 

为 了 保护 完整 性 度量 值 ， 内 核 使 用 了 加 密 算法 。 加 密 算法 需要 密 钥 ，IMA/EVM 用 到 了 三 














































































































组 密 钥 : evm-key. evm. ima. FIDE 905. 


(1) evm-key 
























































扩展 属性 security.evm 值 包含 儿 个 安全 相关 扩展 属性 值 的 加 密 处 理 后 的 运算 结果 ， 一 种 处 





















































理 方 式 是 使 用 HMAC。HMAC 是 密 钥 相关 的 喻 希 运 算 消 息 认证 人 码 (Hash-based Message 


























Authentication Code). HMAC 运算 利用 哈 希 算法 ， 以 一 个 密 钥 和 一 个 消息 为 输入 ， 生 成 一 个 消 








县 摘要 作为 输出 。 














上 述 加 密 运 算 使 用 的 密 钥 是 内 核 中 一 个 名 称 为 “evm-key”， 类 型 为 “encrypted” 的 密 钥 。 


























关于 密 钥 管理 ， 请 参考 第 16 $$. EVM 子 系统 将 安全 相关 的 扩展 属性 的 值 合 在 一 起 作为 消息 输 
入 ， 将 密 钥 “evm-key” 作 为 密 钥 输入 ,算出 当前 的 HMAC 值 ， 用 这 个 值 和 之 前 存储 在 扩展 属 
性 security.evm 中 的 值 进行 比较 ， 确 定 文件 的 安全 相关 扩展 属性 的 完整 性 是 否 被 破坏 。 








(2) evm 




















































































































男 一 个 保护 安全 相关 扩展 属性 值 的 方式 是 使 用 数字 签名 。 数 字 签 名 涉及 公 钥 和 私 钥 。 在 扩 


























(3) ima 












































展 属性 security.evm 的 值 中 包含 一 个 数字 签名 ，EVM 子 系 统 在 内 核 钥 匙 链 (keyring)“_evm” 








中 寻找 用 于 验证 签名 的 公 钥 。 














EVM 是 用 来 保护 IMA 的 。EVM 自身 依靠 数字 签名 或 HMAC 保护 ， 那 么 如 果 直 接 用 签名 
来 保护 IMA, 不 就 可 以 省 略 EVM TE? 后来, IMA 做 了 一 些 扩展 , 在 security.ima 中 直接 存储 











一 个 和 文件 完整 性 校 验 值 















































相关 的 数字 签名 ， 这 样 在 没有 EVM 的 情况 下 ，IMA 自己 就 可 以 保证 

















自己 的 完整 性 。 











验证 签名 的 公 钥 存储 在 内 核 钥匙 链 (keyring)“_ima” 上 。 
12.2.5 用 户 态 工具 
1， 签 名 的 生成 














读 到 这 里 ， 不 知 读者 有 没有 疑问 : 扩展 属性 security.evm 和 security.ima 中 的 值 是 什么 时 候 
填 入 的 ? 密 钥 是 怎么 产生 的 ? 又 是 什么 时 候 载 入 内 核 的 ? 

先 说 IMA, P JEPE security.ima 的 值 有 两 种 形式 ， 一 种 是 非 加密 哈 希 ， 另 一 种 是 数字 签 
内 核 在 进程 访问 文件 时 填 入 当时 的 哈 希 值 ， 条 件 是 内 核 启 动 时 有 参数 





名 。 前 者 可 以 1 

















“ima_appraise=fix”。 后 者 要 由 用 户 态 工具 写 入 


再 说 evm， 扩 展 属 性 security.evm 的 值 有 两 种 形式 ， 一 种 是 HMAC， 男 一 种 是 数字 签名 。 

























































































































































































前 者 可 以 由 内 核 在 进程 访问 文件 时 填 入 当时 计算 的 结果 , 条 件 是 内 核 启 动 时 有 参数 “evm=fix”。 












































后 者 要 由 用 户 态 工 具 写 入 。 这 个 用 户 态 工具 是 evmctl， 当 然 用 户 也 可 以 编写 别 的 工具 做 同样 的 

















事情 。 下 面 举 几 个 例子 。 
计算 哈 希 存 入 ima 并 且 产生 evm 签名 : 








evmctl sign --imahash test.txt 


产生 ima 签名 和 evm 签名 : 
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evmctl sign --imasig test.txt 
产生 ima 签名 : 


evmctl ima sign test.txt 











LI 
Ji 
Si 
> 
hod 
3H 
BE 
ER 
Ei 
E y 
R 
pa 
BE 
Hr 
E 
R "d 
IN 
E T 
IN 


也 就 是 说 ， 在 数字 签名 的 情况 下 ， 内 核 只 
都 是 本 次 系统 启动 之 前 的 某 个 时 刻 生成 的 。 

2. 密 钥 的 生成 

(1) evm-key 

密 钥 的 生成 也 需要 用 户 态 工具 ， 首 先是 evm-key。 在 TPM WAFERS F, “encrypted” 
密 钥 可 以 依托 “trusted” 密 钥 产 生 : 















































keyctl add trusted kmk "new 32" Qu 
keyctl add encrypted evm-key "new trusted:kmk 32" Qu 








第 一 条 命令 是 让 内 核 借助 TPM 产生 一 个 类 型 为 “trusted”， 描述 为 “kmk”， 长 度 为 32B 的 
密 钥 。 第 二 条 命令 是 让 内 核 借助 刚才 产生 的 “kmk” 密 钥 ， 产 生 一 个 类 型 为 “encrypted”， 描 述 
为 “evm-key”， 长度 为 32B 的 密 钥 。 

有 TPM 硬件 时 ， 内 核 才 能 产生 类 型 为 “trusted” 的 密 钥 。 在 没有 TPM 硬件 时 , “encrypted” 
密 钥 只 能 依托 “user” 密 钥 产 生 : 





















































d 





ER 


keyctl add user kmk "`dd if-/dev/urandom bs-1 count-32 2»/dev/null'" Qu 
keyctl add encrypted evm-key "new user:kmk 32" Qu 








第 一 条 命令 让 内 核 产 生 一 个 类 型 为 “user”， 描 述 为 “kmk”， 长 度 为 32B， 内 容 为 自 
/dev/urandom 读 出 的 随机 数 的 密 钥 。 第 二 条 命令 是 让 内 核 借助 刚才 产生 的 “kmk” 密 钥 ， 产 生 
一 个 类 型 为 “encrypted”， 描述 为 “evm-key”， 长 度 为 32B MEH. 

(2) ima 和 evm 


用 户 可 以 用 openssl 生成 公私 钥 对 ， 然 后 将 公 钥 加 载 到 内 核 中 : 












































ima id-$(keyctl newring ima Qu) 
evmctl import /etc/keys/pubkey ima.pem $ima id 





vm id-$(keyctl newring  evm Qu) 
evmctl import /etc/keys/pubkey evm.pem $evm id 


3， 密 钥 加 载 

evm-key、 用 于 数字 签名 的 ima 公 钥 和 用 于 数字 签名 的 evm 公 钥 都 要 保存 在 内 核 中 。 它 们 需 
要 在 系统 启动 的 早期 被 加 载 入 内 核 。 通 常 这 样 的 工作 在 initramfs 中 完成 。 相 应 的 命令 可 以 是 加 载 
evm-key。 假 设 有 TPM 硬件 ， 使 用 trusted 密 钥 作为 encrypted 密 钥 的 后 台 支 持 ， 假 设 密 钥 相 关 
的 数据 被 存 入 /etc/keys/ 目 录 下 的 文件 : 






































keyctl add trusted kmk "load ‘cat /etc/keys/kmk'" Qu 
keyctl add encrypted evm-key "load ‘cat /etc/keys/evm-key^" Qu 
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若 没 有 TPM 硬件 ， 只 能 使 用 user 

















密 钥 作 为 encrypted 密 钥 的 后 台 文 持 : 





cat /etc/keys/kmk | keyctl padd user kmk Qu 























keyctl add encrypted evm-key "load ‘cat /etc/keys/evm-key^" Qu 
加 载 完 evm-key 后 ， 要 通知 一 下 内 核 ， 内 核 evm 子 系统 就 可 以 用 evm-key 进行 相关 计算 了 。 











echo "1"> /sys/kernel/security/evm 





两 个 公 钥 的 加 载 类 似 ， 下 面 只 


# search for EVM keyring 








vm id= keyctl 


if [ -z "Sevm id" 





fi 


search Qu keyring 
]; then 


vm id= keyctl newring 


列 出 一 个 : 


_evm 2»/dev/null' 


_evm Qu^ 


# import EVM X509 certificate 
evmctl import /etc/keys/x509 evm.der S$evm id 


12.3” 伪 文件 系统 














IMA/EVM 使 
/sys/kernel/security。 














(1) evm 














件 需 要 能 力 “CAP SYS ADMIN", 
再 写 就 会 得 到 “EPERM” 
有 初始 化 。 

(2) ima 














] securityfs 文件 系统 构建 内 核 和 
IMA/EVM 在 其 中 创建 了 两 个 文件 和 一 个 子 目 录 。 





























只 能 向 这 个 文件 写 入 ASCII 字符 “1”。 





这 是 一 个 目录 ， 其 下 的 文件 都 和 ima AX. 


1) binary runtime measurements 


2) ascii runtime measurements 















































这 两 个 文件 都 是 只 读 文 件 ， 用 来 显示 内 核 中 
| 的 形式 输出 列表 内 容 ， 而 ascii runtime measurements 是 文本 形式 。 





measurements 以 二 进 带 















































里 的 度 





量 文件 列表 。 








mÈ 





JRH. securityfs 38 





HOSTES 


用 户 态 程序 通过 这 个 文件 通知 内 核 evm 子 系 统 ， 密 铀 “evm-key” 已 经 准备 好 。 写 此 文 


写 入 一 次 后 ， 





普 误 。 读 文 件 会 得 到 当前 evm 的 状态 ，1 表示 就 绪 ，0 表示 还 没 


binary runtime - 


ifi 




































































简要 叙述 一 下 ascii runtime measurements 文件 的 内 容 : 每 行 一 个 记录 ， 对 应 一 个 文件 的 完整 性 
度量 。 第 一 个 记录 特殊 ， 对 应 的 是 引导 程序 ， 显 示 文 件 名 的 地 方 是 "boot aggregate", ib Sil 
值 的 输入 是 TPM 硬件 的 8 个 寄存 器 pcr0 一 pcr7。 

每 行 的 第 一 列 是 分 配给 MA 使 用 的 PCR 寄存 器 ， 由 编译 选项 CONFIG_IMA_ 
MEASURE PCR IDX 决定 ， 取 值 范围 8 一 14， 缺 省 为 10。 第 二 列 是 哈 希 值 ， 第 三 列 是 模板 名 
称 ， 第 四 列 是 模板 对 应 的 文件 信息 《文件 内 容 的 哈 希 值 、 文 件 名 、 数 字 签 名 )。 需 要 解释 一 下 模 





板 了 。IMA 有 三 个 模板 ， 名 称 分 别 为 : 
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ima. a ima-sig. TE ima 模板 中 ， 
入 消息 包括 文件 内 容 和 文件 名 。ima-ng 和 ima : 





类 似 ， 也 是 针对 文件 内 容 











计算 哈 希 时 的 输 





和 文件 名 计算 哈 希 ， 但 
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是 可 使 用 的 算法 更 多 。ng 就 是 next generation (下 一 代 ) 的 意思 。ima-sig 和 ima-ng 类 似 ， 但 是 
计算 哈 希 的 输入 多 了 一 个 数字 签名 。 





3) runtime measurements count 





























这 是 只 读 文 件 ， 显 示 内 核 中 管理 的 度量 文件 列表 中 文件 的 数量 。 














4) violations 











T 


只 读 文件 ， 显 示 violation 的 次 数 。 针 对 的 是 这 样 一 丰 





中 问题 ; 若 一 个 进程 以 读 模 式 打 天 





























男 一 个 进程 以 写 模式 打开 文件 ， 则 这 个 文件 的 度量 和 使 用 就 会 存在 冲突 。 








5) policy 
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IMA/EVM 使 用 的 内 核 启 动 命令 行 
(1) evm-fix 





Y 











数 有 些 多 ， 下 面 逐 一 介绍 。 











mi 

















进程 访问 文件 时 , 内 核 为 访问 到 的 文件 的 安全 相关 扩 









































Fx, 


展 属性 生成 相应 的 HMAC 值 , EAX 


件 的 扩展 属性 security.evm 之 中 。 如 果 文 件 已 经 有 扩展 属性 security.evm， 并 且 其 中 保存 的 是 数 
































件 生成 扩展 属性 security.evm: 


3 














[AA PAIS ERÀ HMAC 值 存 入 security.evm。 下 面 这 条 命令 为 所 有 属 主 是 root 的 文 


find / -fstype ext4 -type f -uid 0 -exec head -n 1 '{}' »/dev/null V; 


(2) ima appraise-off]fix 








进程 访问 文件 时 ， 内 核 为 访问 到 的 文件 生成 哈 希 值 ， 存 入 扩展 属性 security.ima 之 中 。 如 果 























展 属 性 securityima 已 经 有 值 ， 并 且 值 是 数字 签名 ， 则 不 会 生成 哈 希 值 存 入 扩展 属性 


security.ima. 






































(3) ima tcb 

















/sys/kernel/security/ima/policy 添加 规则 。 


(4) ima appraise tcb 
有 此 参数 表示 使 用 内 核 IMA RE p fioe xe LES YT 























有 此 参数 表示 使 用 内 核 IMA 代码 中 预先 定义 的 度量 规则 。 月 



































日 户 可 以 再 通过 伪 文 件 接口 


估 规 则 。 用 户 可 以 再 通过 伪 文 件 接口 














/sys/kernel/security/ima/policy 添加 规则 。 


(5) ima hash 





ima hash-2"md4|md5|shal|rmd160|sha256|sha384|sha512|sha224|rmd128|rmd256| 
rmd320|wp256|wp384|wp512|tgr128|tgr160|tgr192" 














为 IMA 选择 一 种 哈 希 算法 。 在 ima template 为 “ 





6 mds5 n. 


(6) ima template-"ima|ima-ng|ima-sig" 
为 IMA 选择 一 种 模板 。 
(7) integrity audit-"0|1" 











ima” 的 情况 下 只 能 选择 “shal” 或 者 
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是 否 产生 一 些 说 明 性 的 审计 消息 。 























125 总 结 

















IMA/EVM 被 认为 是 TCG 开发 标准 中 的 一 个 组 成 部 分 ， 并 且 IMA/EVM 使 用 了 TPM 提供 
的 功能 ， 所 以 本 章 从 可 信 计 算 开 始 讲述 。 理 想 中 的 可 信 如 空中 楼 阁 ， 现 实 中 的 可 信 不 得 不 降格 
为 完整 性 。 而 真正 意义 的 完整 性 同样 是 高 高 在 上 ， 现 实 中 完整 性 又 降格 为 哈 希 计算 。 而 哈 希 计 
算 的 对 象 也 仅仅 是 文件 。 虽 然 计 算 的 内 容 包括 文件 内 容 、 文 件 名 甚至 数字 签名 ， 虽 然 文件 在 系 
统 中 很 重要 ， 但 是 这 么 做 只 是 覆盖 了 系统 的 一 部 分 ， 谈 不 上 像 SELinux 那样 全 系统 覆盖 ， 而 更 
重要 的 是 这 么 做 只 做 到 了 保护 静态 完整 性 ， 至 于 动态 的 完整 性 ， 即 进程 的 完整 性 则 无 从 谈 起 。 
IMA 的 评估 功能 和 EVM 都 依赖 于 扩展 属性 ， 这 两 项 功能 主要 是 依赖 扩展 属性 中 存储 的 值 来 验 
证 完整 性 ， 但 是 扩展 属性 中 的 值 是 什么 时 候 存 入 的 呢 ? 它 很 难 在 系统 本 次 运行 中 写 入 ， 需 要 在 
之 前 的 某 次 系统 启动 时 填 入 。 这 就 给 系统 升级 带 来 了 困难 。 



















































































































































































12.6 参考 资料 


读者 可 参考 以 下 资料 。 

K. J. Biba. Integrity Considerations for Secure Computer Systems, 1975. http://seclab. cs. 
ucdavis.edu/projects/history/papers/biba75.pdf 

http://nchc.dl.sourceforge.net/project/linux-ima/linux-ima/Integrity overview.pdf 

http://sourceforge.net/p/linux-ima/wiki/Home/ 

http://linux-ima.sourceforge.net/evmctl. 1 .html 


习题 


























IMA 可 以 使 用 TPM 提供 的 功能 来 保障 完整 性 。 在 没有 TPM 的 情况 下 , IMA 使 用 文件 的 扩 
展 属性 。 有 些 文件 系统 ， 如 MS-DOS 的 FAT， 不 支持 扩展 属性 。 设 计 一 种 方案 使 IMA 可 以 在 
没有 扩展 属性 的 情况 下 发 挥 完整 性 保护 的 作用 。 
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15.1 Device Mapper 


dm-verity 是 内 核子 系统 Device Mapper 的 一 个 子 模块 , MUET 





第 13 六 dm-verity 





1 dm-verity 之 前 先 要 介绍 























一 下 Device Mapper 的 基础 知识 。 





可 以 定 人 





判 存储 资源 的 管理 




















Device Mapper 为 Linux 内 核 提供 了 一 个 从 逻辑 设备 到 物理 设备 的 映射 框架 ,通过 它 ， 用 户 


















































策略 .当前 Linux 中 逻辑 卷 管理 器 如 LVM2(Linux Volume Manager 2). 

















EVMS (Enterprise Volume Management System), dmraid 等 都 是 基于 该 机 制 实现 的 。 


IE 





3 











ER 
的 读 写 ] 









































Device Mapper 架构 如 图 13-1 所 示 。 其 中 有 三 个 重要 概念 : 映射 设备 (Mapped Device), 
WEK Hirie (Target Device)。 上 映射 设备 是 一 个 逻辑 块 设 备 ， 用 户 可 以 像 使 用 其 他 块 设 备 
映射 设备 。 映 射 设 备 通 过 映射 表 所 描述 的 映射 关系 和 目标 设备 建立 映射 。 对 四 
操作 最 终 要 映射 成 对 目标 设备 的 操作 。 而 目标 设备 本 刁 不 一 定 是 一 个 实际 的 物理 设备 ， 


























UM BE 















































它 可 以 是 另 一 个 映射 设备 ， 如 此 循环 往复 ， 理 论 上 可 以 无 限 迭 代 下 去 。 映 射 关 系 本 质 上 就 是 表 
明 映 射 设 备 中 的 地 址 对 应 到 哪个 目标 设备 的 哪个 地 址 。 


下 面 看 一 个 例子 : 


root #echo 





1024 


'2048 
'3072 
| dms 


产生 的 设备 架构 如 医 


Mapped Device 












Mapped Device 


a 
Target Device 


图 13-1 Device Mapper 架构 


Target Device 








'0 1024 linear /dev/sda O'NMnN 


linear /dev/sdb 0'\\n\ 
linear /dev/sdc 0'\\n\ 
linear /dev/sdd 0' N 
tup create test-linear 

















13-2 所 和 示 。 有 映射 设备 名 为 “test-linear”， 有 映射 到 4 个 目标 设备 ， 映 射 


关系 是 第 0 block 到 第 1023 个 block 映射 到 第 一 个 目标 设备 ， 第 1024 个 block 到 第 2047 个 
block 映射 到 第 二 个 目标 设备 ， 第 2048 个 block 到 第 3071 个 block 映射 到 第 3 个 目标 设备 ， 第 
3072 个 block 到 第 4095 个 block 映射 到 第 4 个 目标 设备 。 映射 设 备 中 的 块 读 写 要 由 具体 的 目标 
设备 实现 , 如 何 实现 又 依赖 于 目标 设备 的 类 型 。 这 个 例子 中 目标 设备 的 类 型 都 是 “linear”。 linear 
需要 额外 两 个 参数 ， 设 备 名 和 块 (block) 起 始 地 址 ， 在 这 个 例子 中 所 有 目标 设备 的 块 起 始 地 
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址 都 是 0。linear 是 一 种 比较 简单 的 类 型 ， 就 是 简单 的 线性 对 应 。 这 个 例子 中 ， 针 对 每 个 目标 设 
备 都 是 从 0 起 始 的 1024 个 block 被 分 配给 了 名 为 “test-linear” 的 映射 设备 。 








test-linear 






Mapped Device 


0~1023 3072~4095 


1024-2047 . 2048-3071 


linear linear linear linear 
/dev/sda 0 /dev/sdb 0 /dev/sdc 0 /dev/sdd 0 











图 13-2. Device Mapper 例子 


Device Mapper 是 一 个 灵活 的 架构 ,映射 设备 映射 一 个 或 多 个 目标 设备 , 每 个 目标 设备 属于 
一 个 类 型 ， 类 型 不 同 ， 对 VO 的 处 理 不 同 ， 构 造 目标 设备 的 方法 也 不 同 。 昌 然 上 面 的 例子 中 所 
有 的 目标 设备 都 是 一 个 类 型 一 一 linear, 但 这 并 不 是 硬性 要 求 ， 映 射 设备 可 以 映射 为 多 个 不 同类 
型 的 目标 设备 。 有 的 类 型 有 额外 要 求 ， 比 如 本 章 讲述 的 dm-verity 规定 只 能 有 两 个 目标 设备 ， 一 
个 是 数据 设备 〈Data Device)， 另 一 个 是 哈 希 设 备 〈Hash Device). 


































































































13.2 dm-verity 简介 


dm-verity 是 Device Mapper 架构 下 的 一 种 目标 设备 类 型 。 通 过 它 来 保障 设备 或 设备 分 区 的 
完整 性 。 它 的 典型 架构 如 图 13-3 所 示 。 






































Mapped Device 


Target Device 
(dm-verity) 


图 13-3 dm-verity 架构 


dm-verity 类 型 的 设备 需要 两 个 “底层 ”设备 ， 一 个 是 数据 设备 ， 顾 名 思 义 用 来 存储 数据 ， 
实际 上 就 是 要 保障 完整 性 的 设备 ， 另 一 个 是 哈 希 设备 ， 用 来 存储 哈 希 值 ， 在 校 验 数据 设备 完整 
性 时 需要 。 
图 13-3 中 表示 的 是 dm-verity 的 一 种 典型 应 用 ， 也 是 简单 直接 的 应 用 。 图 中 映射 设备 和 目 
标 设备 是 一 对 一 关系 ， 对 映射 设备 的 读 操作 被 映射 成 对 目标 设备 的 读 操作 ， 在 目标 设备 中 ， 
dm-verity 又 将 读 操 作 映 射 为 对 数据 设备 (Data Device) 的 读 操 作 。 但 是 在 读 操作 的 结束 处 ， 
dm-verity 加 了 一 个 额外 的 校 验 操作 ， 对 读 到 的 数据 计算 一 个 哈 希 值 ， 用 这 个 哈 希 值 和 存储 在 哈 
希 设备 (Hash Device) 中 的 值 比 较 ， 如 果 不 同 ， 则 本 次 读 操作 被 标记 为 错误 。 

下 面 介绍 一 下 哈 希 值 的 存储 和 使 用 ， 如 图 13-4 所 示 。 






Data Device 
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root hash 


Layer3 


Layer2 


Layer 1 





图 13-4  dm-verity 哈 希 设备 


假设 数据 设备 和 哈 希 设备 中 每 块 大 小 均 为 4KB， 再 假设 使 用 哈 希 算法 SHA256， 即 每 块 数 
据 的 哈 希 值 为 32B (256 bits)， 则 哈 希 设备 中 的 每 块 (KB) 存储 有 4096/32=128 个 哈 希 值 。 所 
以 在 layer 0 中 一 个 哈 希 设备 的 块 对 应 数据 设备 的 128 个 块 。 到 这 里 似乎 完整 了 ， 数 据 设备 中 存 
储 数据 ， 哈 希 设备 中 存储 哈 希 值 。 在 读 取 数 据 时 ， 计 算数 据 的 哈 希 值 ， 和 存储 在 哈 希 设备 中 的 
值 比较 ， 根 据 结果 决定 读 操作 是 否 成 功 。 这 还 不 够 ，dm-verity 还 要 防备 哈 希 设备 中 存储 的 哈 希 
值 被 算 改 的 情况 。 所 以 要 加 上 layer 1, Æ layer 1 中 的 每 块 数据 对 应 layer 0 中 的 128 个 块 (当然 
也 可 以 比 128 少 ), layer 1 中 的 数据 就 是 对 layer 0 中 数据 计算 哈 希 值 , 如果 layer 1 中 只 有 一 块 ， 
那么 就 此 停止 ,否则 继续 增加 layer， 直 到 layern，layern 中 只 有 一 块 。 最 后 对 layer n 再 计算 哈 
希 值 , 称 这 个 哈 希 值 为 root hash。 这 个 哈 希 值 就 是 对 数据 设备 中 各 块 和 哈 希 设备 中 各 块 一 一 layer 
0 到 layer n 一 一 进行 了 一 个 复杂 的 哈 希 运算 。 因 此 ， 数 据 设 备 和 哈 希 设备 中 数据 的 变化 就 会 反 
HW root hash 的 变化 。 通 过 验证 root hash 就 可 以 检验 数据 是 否 被 算 改 。 

最 后 提 一 下 ，dm-verity 设备 必须 被 只 读 使 用 。 这 个 不 难 理解 。 但 是 ， 有 一 个 问题 ， 就 是 哈 
希 设备 中 的 数据 是 如 何 建立 的 。 答案 是 内 核 不 负责 建立 ， 要 先 由 用 户 态 工具 ， 比 如 veritysetup， 
“格式 化 ”相应 的 设备 。 然 后 内 核 在 其 上 建立 dm-verity 设备 。 


13.3 ”代码 分 析 






























































































































































































































































imu] 





































































































13.3.4 ”概况 


目标 设备 的 类 型 体现 为 结构 体 target type， 其 中 定义 了 若干 函数 指针 ， 分 别 对 应 构建 、 解 
Kj. Wi UO. £x IO、 暂 停 、 恢 复 等 操作 。 而 dm-verity 对 应 的 target type 的 定义 是 : 











drivers/md/dm-verity.c 
static struct target type verity target = { 


. name = "verity", 
.version = {1, 2, 0}, 
.module = THIS_MODULE, 
JOUÉ = verity ctr, 
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.dtr = verity dtr, 

.map = verity map, 

.Status = verity status, 

.ioctl = verity ioctl, 

.merge = verity merge, 

.iterate devices = verity iterate devices, 
.io hints = verity io hints, 


}; 


target type 的 定义 为 : 





NS 





include/linux/device-mapper.h 
struct target type { 

uint64 t features; 

const char *name; 

struct module *module; 

unsigned version[3]; 

dm ctr fn ctr; 

dm dtr fn dtr; 

dm map fn map; 

dm map request fn map rg; 


dm endio fn end io; 





dm request endio fn rq end io; 





dm presuspend fn presuspengd; 


dm postsuspend fn postsuspend; 








dm preresume fn preresume; 





dm resume fn resume; 


dm status fn status; 





dm message fn message; 

dm ioctl fn ioctl; 

dm merge fn merge; 

dm busy fn busy; 

dm iterate devices fn iterate devices; 


dm io hints fn io hints; 








/* For internal device-mapper use. */ 
struct list head list; 
}; 

















结构 体 target_type 的 主要 成 员 是 很 多 函数 指针 。 本 章 分 析 其 中 最 常用 的 map 上 映射》 和 ctr 











(构建 ) 函数 指针 ， 在 verity_target 中 ， 这 两 个 函数 指针 指 占 verity_map 和 verity_ctr。 
13.3.2 ”映射 函数 (verity map ) 





P Ifi 





DA 


X Target Device 的 dm-verity. 
1. 块 设 





132 

















在 执行 之 前 ， 代 码 则 得 先 要 在 块 设备 架构 中 转 上 一 大 图 





o 


要 分 析 三 个 层次 的 代码 逻辑 。 第 一 层 是 块 设备 ， 第 二 层 是 Device Mapper， 第 三 层 是 作 











首先 看 看 块 设备 中 的 接口 函数 














5513 5$  dm-verity 








generic make request: 


block/blk-core.c 
void generic make request(struct bio *bio) 


{ 
do { 
struct request queu 


q-»make request fn(q, bio); 
bio = bio list pop(current-»bio list); 


*q = bdev get queue (bio-»bi bdev); 





) while (bio); 
current-»bio list = NULL; /* deactivate */ 


} 
函数 generic make request 的 函数 主体 是 一 个 循环 ， 循 环 处 理 每 一 个 bio， 处 理 bio 的 工作 
函数 指针 make request fn 所 指向 的 函数 完成 。 函 数 指针 make request fn 的 赋值 是 在 函数 
blk queue make request 中 完成 的 : 







































































block/blk-settings.c 
void blk queue make request(struct request queue *q, make request fn *mfn) 


{ 
q-»nr requests = BLKDEV MAX RQ; 











q-»make request fn - mfn; 


) 


2. Device Mapper 
上 面 是 块 设备 的 代码 逻 辑 ， 下 面 看 看 在 Device Mapper 中 如 何 赋值 这 个 函数 指针 : 


























drivers/md/dm.c 
static void dm init md queue(struct mapped device *md) 


{ 





blk queue make request (md-»queue, dm request); 


) 











Device Mapper 要 将 make request fn 指针 赋值 为 dm_request。dm request 的 定义 如 下 : 











drivers/md/dm.c 
static void dm request(struct request queue *q, 


{ 
struct mapped device *md = q-»queuedata; 


struct bio *bio) 





if (dm request based (md)) 
blk queue bio(q, bio); 
else 
dm request(q, bio); 
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代码 逻辑 从 dm request 开始 ， 经 过 一 系列 函数 调用 ， 最 终 会 调用 _map_bio: 























drivers/md/dm.c 
static void | map bio(struct dm target io *tio) 


{ 


r = ti-»type-»map(ti, clone); 


) 


从 这 里 ， 代 码 逻 辑 就 进入 了 有 具体 的 Target Device. 
3. dm-verity 
“map” 是 一 个 函数 指针 ,， 对 于 dm-verity 设备 , 它 指向 函数 verity_map。 代 人 码 还 是 很 简单 的 : 



































drivers/md/dm-verity.c 
static int verity map(struct dm target *ti, struct bio *bio) 
{ 
struct dm verity *v = ti-»private; 
struct dm verity io *io; 
bio-»bi bdev = v-»data dev-»bdev; 
bio-»bi iter.bi sector = verity map sector(v,bio-»bi iter.bi sector); 





io = dm per bio data(bio, ti-»per bio data size); 
io-»v = v; 

io-»orig bi end io = bio-»bi end io; 
io-»orig bi private = bio-»bi private; 





bio-»bi end io = verity end io; 
bio-»bi private = io; 


verity submit prefetch(v, io); 
generic make request (bio); 
return DM MAPIO SUBMITTED; 

} 


它 主 要 做 了 两 件 事 ， 第 一 件 是 将 bio 的 bi end io 函数 指针 和 数据 成 员 bi private 换 掉 ， 将 
原 有 值 保存 ， 以 便 以 后 恢复 。 第 二 件 事 是 调用 块 设备 的 函数 generic make request 启动 对 
dm-verity 的 data device 的 操作 。 按 照 块 设备 的 代码 逻辑 ， 在 io 操作 之 后 ，bi end io 函数 指针 
会 被 调用 ， 对 于 dm-verity 来 说 就 是 verity end io。 下 面 看 看 bi end io 指针 所 指向 的 
verity_end_io， 就 知道 verity 要 干什么 了 : 

























































































drivers/md/dm-verity.c 
static void verity end io(struct bio *bio, int error) 


{ 


struct dm verity io *io = bio-»bi private; 
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if (error) ( 
verity finish io(io, error); 


return; 


INIT WORK(&io-»work, verity work); 
queue work(io-»v-»verify wq, &io-»work); 

















如 果 读 写 出 错 ， 就 调用 verity finish io， 此 函数 恢复 原 有 的 bi end io 指针 和 bi private 
指针 : 


drivers/md/dm-verity.c 
static void verity finish io(struct dm verity io *io, int error) 
{ 
struct dm verity *v = io-»v; 
struct bio *bio = dm bio from per bio data(io, v-»ti-»per bio data size); 





bio-»bi end io = io-»orig bi end io; 
bio-»bi private = io-»orig bi private; 


bio endio nodec(bio, error); 


imli 











下 要 的 工作 在 verity work 函数 中 : 


drivers/md/dm-verity.c 
static void verity work(struct work struct *w) 


{ 


struct dm verity io *io = container of(w, struct dm verity io, work); 


verity finish io(io, verity verify io(io)); 














verity work 会 调用 verity verify io， 此 函数 完成 最 重要 的 工作 一 一 校 验 。 





drivers/md/dm-verity.c 
static int verity verify io(struct dm verity io *io) 
for (b 20; b < io-»n blocks; b**4) { 
if (likely(v-»levels)) ( 
int r = verity verify level(io, io-»block + b, 0, true); 


if (likely(!r)) 
goto test block hash; 
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if (r « 0) 


return r; 


memcpy(io want digest(v, io), v-»root digest, v-»digest size); 








for (i = v-»levels - 1; i >= 0; i--) { 
int r = verity verify level(io, io-»block + b, i, false); 
if (unlikely (r)) 
return r; 

} 

test block hash: 

result = io real digest(v, io); 

r = crypto shash final(desc, result); 

if (r« 0) { 
DMERR("crypto shash final failed: $d", r); 
return r; 

l 

if (unlikely (memcmp(result, io want digest(v, io), v-»digest size))) { 


DMERR LIMIT("data block $llu is corrupted", 
(unsigned long long) (io-»block + b)); 
v-»hash failed = 1; 
return -EIO; 


) 


return 0; 


) 


verity verify io 函数 





























Hyg XEEBEHK, KEBK. RAEES 
有 的 block 进行 校 验 。 在 循环 体 中 又 分 为 两 部 分 ， 在 标号 test block hash 之 前 的 部 分 是 对 哈 希 











个 循环 ， 对 io 中 所 


设备 进行 校 验 , 在 标号 test block hash 之 后 的 部 分 是 对 数据 设备 进行 校 验 。 回顾 一 下 , dm-verity 
一 个 是 数据 设备 ， 用 来 存储 数据 ， 另 一 





需要 两 个 “底层 ”设备 ， 
的 校 验 值 。 





























是 哈 希 设备 ， 存 储 的 是 数据 














参考 图 13-4， 在 哈 希 设备 中 存储 是 分 层 的 。 最 底层 是 0 层 ， 每 个 块 中 存储 的 是 数据 设备 中 








对 应 块 的 数据 的 校 验 值 ; 














其 上 每 层 都 存储 着 下 一 层 的 校 验 值 。 
































据 的 正确 性 。 这 里 用 J 

















verity verify level(io, io->block + b, 0, true) 就 会 返回 0， 然 后 函数 就 直 


去 执行 校 验 数据 设备 的 操作 。 如 果 之 前 没有 做 过 校 验 ,， 就 要 老 老实 实地 验证 





























0 层 由 1 层 校 验 ，1 层 | 

















在 








2 层 校 验 …… 顶 层 由 root hash 校 验 。 
































向 下 做 校 验 的 ， 因 为 一 开始 “好 的 ” 校 验 值 只 有 
后 levels-1 层 存储 的 校 验 值 就 成 了 “好 的 ” 校 验 值 



























































此 类 推 直到 第 0 层 . 校 验 操作 无 非 是 算出 一 个 校 验 值 
函数 中 将 好 的 校 验 值 存 储 在 组 六 



































个 ， 就 是 





， 又 可 以 























函数 又 


JERK 








函数 中 ， 


个 技巧 ， 检 验 的 结果 是 被 缓存 了 的 ， 如 果 以 前 检验 的 结果 为 正确 ， 
接 到 test block hash 之 后 




















日 此 值 








» 7/1 


























中 将 root hash 填 入 这 个 缓冲 区 ， 然 后 在 函数 verity verify level 中 做 验 i 
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和 



































首先 检验 第 0 层 数 















































F 哈 希 设备 的 完整 性 。 





了 一 个 技巧 ， 它 是 自 项 
root hash。 经 过 root hash 校 验 
它们 来 校 验 levels-2 层 了 ， 以 
个 事先 存储 的 校 验 值 比较 。 
首先 在 本 函 

















数 verity verify io 








E， 验 证 通过 后 就 会 
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将 新 的 校 验 值 填 入 这 个 缓冲 区 。 

在 标号 test block hash 之 前 ， 第 0 层 的 哈 希 设备 的 数据 一 定 是 被 存储 在 了 缓冲 区 io want | 
digest(v, io) 之 中 的 。 标 号 test_block hash 之 后 的 部 分 所 做 的 工作 就 是 读 出 数据 设备 中 的 数据 块 
内 容 ， 算 出 校 验 值 ， 和 io want digest(v, io) 之 中 的 内 容 进 行 比 较 ， 如 果 相 同 就 通过 了 校 验 。 






































13.3.3 PERZ (verity ctr) 


dm-verity 的 构造 函数 的 代码 逻辑 与 块 设备 关系 不 大 。 下 面具 分 析 Device Mapper 层 和 
dm-verity 层 的 代码 逻辑 。 

1. Device Mapper 

Device Mapper 架构 为 用 户 态 程序 提供 的 接口 是 一 个 名 为 control 的 设备 文件 ， 全 路 径 名 为 
/dev/mapper/control， 主 设备 号 为 10 (misc 设备 )， 从 设备 号 为 236。 用 户 态 工具 ， 如 dmsetup， 
会 通过 ioctl 系统 调用 操作 这 个 设备 。 下 面 看 一 下 代码 : 



























































drivers/md/dm-ioctl.c 
static ioctl fn lookup ioctl(unsigned int cmd, int *ioctl flags) 
{ 
static struct { 
int cmd; 
int flags; 
ioctl fn fn; 
) ioctls[] = { 


(DM TABLE LOAD CMD, 0, table load], 





}; 





if (unlikely(cmd >= ARRAY SIZE( ioctls))) 
return NULL; 





*ioctl flags = ioctls[cmd].flags; 
return ioctls[cmd].fn; 


) 





























命令 DM TABLE LOAD CMD (整数 9) 对 应 的 函数 是 table load. table load 会 最 终 调用 
函数 dm table add target, dm table add target 会 执行 





r = tgt-»type-»ctr(tgt, argc, argv); 














调用 某 个 具体 类 型 的 构造 函数 。 

2. dm verity 

ctr 是 一 个 函数 指针 , 指向 dm verity 的 构造 函数 verity ctr. verity. ctr 本 身 逻 辑 比 较 简 单 ， 
它 需 要 10 个 参数 ， 全 部 是 必 选 参数 。 按 照 顺序 分 别 是 : 数据 设备 、 喻 希 设备 、 数 据 块 大 小 、 
哈 希 块 大 小 、 数 据 设备 包含 的 块 数 、 哈 希 设备 起 始 块 、 哈 希 算法 、 根 哈 希 值 (root hash)、 盐 。 
如 果 最 后 的 参数 输入 为 “-”， 就 意味 着 没有 盐 。 参 数 “ 哈 希 设备 起 始 块 ”规定 喻 希 设 备 从 起 
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始 块 开始 才 存 储 前 面 提 到 的 那 棵 存储 哈 希 值 的 树 ， 至 于 起 始 块 之 前 存储 什么 ，dm-verity 并 没 
有 规定 。Android 4.4 利用 起 始 块 之 前 的 空间 存储 了 一 个 对 哈 希 树 的 数字 签名 ， 有 兴趣 的 读者 
可 以 参考 http://nelenkov.blogspot.com/2014/05/using-kitkat- verified-boot.html。 

前 面 提 到 ， 内 核 dm-verity 部 分 不 负责 建立 hash. device 中 正确 的 数据 结构 。 通 常 是 利用 用 
户 态 工具 ， 如 veritysetup， 来 创建 hash device。 所 以 需要 注意 的 是 构建 dm-verity 设备 时 输入 的 
参数 “ 盐 ” 要 和 执行 veritysetup 时 的 输入 的 参数 “ 盐 ” 一 致 ， 输 入 参数 “ 根 校 验 值 ”(root hash? 
要 和 veritysetup 的 输出 一 致 。 
























































































































































13.4 总 结 























dm-verity 是 Device Mapper 的 一 种 设备 类 型 ， 用 来 保证 设备 的 完整 性 。 它 的 巧妙 性 在 于 将 
对 数据 设备 的 完整 性 保护 转化 为 对 一 个 根 哈 希 值 的 完整 性 保护 。 只 要 这 个 根 哈 希 值 没 有 被 算 改 ， 
任何 对 数据 设备 的 算 改 都 可 以 检测 出 来 。 


















































13.5 参考 资料 


读者 可 参考 以 下 资料 : 
www ibm.com/developerworks/cn/linux/l-devmapper/ 
Documentation/device-mapper/ 
Iwn.net/Articles/459420 
gitlab.com/cryptsetup/cryptsetup/wikis/DM Verity 


习题 











TS 


根 哈 希 值 不 被 自 改 对 于 dm-verity 设备 至 关 重 要 。 设 计 几 种 方案 保护 根 哈 希 值 ， 思考 一 下 这 
些 方案 的 利 浆 。 
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审计 和 日 志 的 目的 是 记录 系统 关键 行为 。 审 计 和 日 志 就 像 城 市 街头 的 摄像 头 。 摄 像 头 本 身 
并 不 能 阻止 违法 和 犯罪 ， 但 是 它 能 记录 犯罪 并 为 追踪 犯罪 提供 方便 。 















































第 14 章 审计 (audit) 


14.1 简介 


14.4.3. 审计 和 日 志 

audit 这 个 英文 单词 直译 为 “审计 ” 英文 释义 为 “an official inspection of an individual's or 
organization's accounts, typically by an independent body.” 从 上 面 释义 中 可 以 看 到 ，audit 有 两 个 
特征 : 正式 的 审查 〈official inspection〉 和 独立 的 个 体 (independent body)。 在 Linux 系统 中 ， 
独立 的 个 体 就 是 内 核 ， 正 式 的 审查 就 是 在 内 核 中 根据 设 定 的 规则 生成 审计 消息 。 

志 与 审计 有 些 类 似 ， 都 可 以 反映 系统 的 行为 。 其 区 别 在 于 : 日 志 基于 一 种 自觉 行为 ， 系 

统 的 多 个 守护 进程 (daemon) 在 执行 过 程 中 发 送 日 志 消 息 给 日 志 服 务 进程 ， 后 者 将 消息 记录 到 
日 志文 件 中 。 系 统 守护 进程 可 以 多 发 、 少 发 、 不 发 其 至 错 发 日 志 消 息 。 
14.1.2 ”概貌 


audit 的 架构 如 图 14-1 所 示 。 


auditd.conf 
Im 
| 
1 
| 
| 
1 
1 
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audit.log 
autrace 
一 
一 




















application 





ausearch 





图 14-1 audit 架构 









































Linux 内 核 的 audit 子 系统 使 用 netlink 套 接 字 作为 和 用 户 态 进程 之 间 的 接口 。auditd 守护 进 
程 通过 netlink 套 接 字 不 断 从 内 核 audit 子 系统 接收 审计 消息 ,auditd 进程 会 将 审计 消息 发 往 两 个 
去 处 , 一 个 是 通过 AF_UNIX/AF_LOCAL 套 接 字 发 送 给 它 的 子 进程 audispd, 后 者 依照 配置 做 进 
一 步 的 分 发 ， 另 一 个 是 写 入 auditlog. auditlog 的 内 容 实 在 是 过 于 庞杂 ， 为 了 让 用 户 更 容易 理 
解 ，audit 开发 人 员 提 供 了 ausearch 和 aureport。 前 者 用 于 在 audit.log 中 寻找 特定 信息 ， 后 者 用 
于 归纳 auditlog 中 的 信息 。auditctl 用 于 向 内 核 设 定 审计 规则 。autrace 的 功能 与 strace 的 功能 
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类 似 ， 都 是 ; 
运行 命令 之 前 设 定 审 计 规 则 ， 在 执行 乡 
EH 
AES 








9S OO 


root8ubuntu-desktop: 
Waiting to execute: 


运 休 一 




















云 行 一 条 命令 ， 跟 踪 此 命令 所 产生 的 进程 的 系统 调用 情况 。autrace 的 实现 原理 是 ， 
吉 束 时 再 将 审计 规则 删除 。 在 作者 的 计算 机 上 执行 的 效 




















hello world 
Cleaning up... 
Trace complete. You can locate the records with 'ausearch -i -p 4357' 


rootQubuntu-desktop:-/tmpi 














~/tmp# autrace /bin/echo 'hello world' 
/bin/echo 


实际 上 ，autrace 会 创建 两 条 规则 ， 假 设 上 例 中 echo 产生 的 进程 的 进程 号 为 4212: 


























在 上 例 中 echo 进程 结束 后 , autrace 














图 








计 消 息 ” 给 内 核 。 这 种 所 谓 的 “审计 消息 


检查 pid 为 20015 的 进程 的 所 有 系统 调用 : 





会 删除 上 述 两 条 规则 。 同 strace JH EG, autrace 并 不 好 用 。 
因为 autrace 是 一 个 需要 特权 的 命令 , 男 外 ， 它 的 输出 在 audit.log 文件 中 ,混杂 在 系统 所 有 审计 
消息 之 中 ， KAE Ae AS ET. 














ST RULES: entry,always pid-4212 (0x1074) syscall-all 
IST RULES: entry,always ppid-4212 (0x1074) syscall-all 















































14-1 TH application 是 指 一 些 具 有 c WRITE 的 进程 。 这 些 进 程 可 以 产生 一 
些 “ 审 计 消 息 ” 发 给 内 核 。 按 道理 应 该 是 内 核 审计 用 户 态 进程 ，i Medien. < 进程 发 送 “ 审 
BR. audit 子 系统 在 实现 中 兼 有 审计 
和 日 志 功 能 。audit 子 系统 转发 application 生成 的 日 志 消 息 给 用 户 态 守护 进程 auditd。 

下 面 举 几 个 通过 auditetl 设 定 规则 的 例子 。 








auditctl -a always,exit -S all 










































































































































































-F pid-20015 


检查 euid 为 1000 的 所 有 进程 的 openat 系统 调用 : 


auditctl -a always,exit -S openat -F euid-1000 


检查 对 文件 /etc/shadow 的 写 和 添加 操作 : 


14.2 





auditctl -a always,exit -F path-/etc/shadow -F perm-wa 


ATA 


14.2.1 ”四 个 消息 来 源 





前 面 讲 
粹 ， 它 还 包含 
性 的 消息 。 





过 审计 有 两 个 特征 : E unc Linux ie mur ia 























部 分 日 志 功 能 。 下 面 列 出 审 








计 消 息 
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1. 内 核 

内 核 中 的 一 些 子 系统 会 使 用 audit 子 系统 提供 的 函数 产生 audit 日 志 消 息 。audit 主要 提供 了 
3 个 函数 供 其 他 子 系统 使 用 : audit log start, audit log. audit log end。 下 面 以 SELinux 为 例 看 
一 下 调用 过 程 : 




































































security/selinux/ss/services.c 
static void security dump masked av(struct context *scontext, 
struct context *tcontext, 
ul6 tclass, 
u32 permissions, 
const char *reason) 


/* audit a message */ 
ab = audit log start(current-»audit context, 
GFP ATOMIC, AUDIT SELINUX ERR); 





if (!ab) 
goto out; 


audit log format(ab, "op-security compute av reason-$s 
"scontext-$s tcontext-$s tclass-$s perms-", 
reason, scontext name, tcontext name, tclass name); 


for (index = 0; index < 32; index-*-*) { 
u32 mask = (1 «« index); 


if ((mask & permissions) == 0) 


continue; 


audit log format(ab, "$s$s", 
need comma ? "," ; "", 
permission names[index] 
? permission names[index] "ogogWwys 
need comma - true; 


} 
audit log end(ab); 


audit log start 准备 一 个 buffer, audit log format [A] buffer PIAA VJ Z, audit log end ff buffer 
制作 成 audit 消息 发 出 。 

WH audit_ log 系列 函数 生成 的 实际 上 是 日 志 消 息 ， 不 是 审计 性 质 的 消息 。 

2. 用 户 态 守护 进程 

第 二 个 来 源 是 一 些 用 户 态 守护 进程 。 以 sshd 为 例 看 几 段 代码 : 





I 


















































audit-linux.c 
int linux audit record event(int uid, const char *username, const char 





142 


和 14 章 审计 CaudiO 











*hostname, 


{ 
int audit fd, 


const char *ip, const char *ttyn, 


rc, saved errno; 











int success) 





audit fd = audit open(); 
if (audit fd < 0) { 
if (errno == EINVAL || errno == EPROTONOSUPPORT || 
errno == EAFNOSUPPORT ) 
return 1; /* No audit audit support in kernel */ 
else 
return 0; /* Must prevent login */ 
} 
rc = audit log acct message(audit fd, AUDIT USER LOGIN, NULL, 
"login", username ? usernam "(unknown)", 
username--NULL ? uid :-1, hostname, ip, ttyn, success); 


saved errno - 
close(audit fd); 
/* 


* Do not report error if the error is 


errno; 


* root user. 

















* 

if ((rc == EPERM) && (getuid() != 0 )) 
rc = 0; 

rrno = saved errno; 

return (rc»-0); 


) 


EPERM and sshd is run as 








non 


























audit open 和 audit log acct message 都 在 audit 的 用 


或 


lib/netlink.c 
int audit open (void) 
{ 
int saved errno; 
int fd = socket(PF NETLINK, 





return fd; 


数 的 核心 就 是 获得 一 


audit open RÃ 




















户 态 库 中 实现 。audit open 的 实现 比较 


SOCK RAW, NETLINK AUDIT); 


^* NETLINK AUDIT 类 型 的 NETLINK 套 接 字 。 


audit log acct message 函数 的 核心 是 调用 函数 audit send user message, audit send user - 























message 会 调用 
netlink 套 接 字 发 送 消息 给 内 核 。 

位 言 之 ， 用 户 态 守 护 进程 sshd 会 申请 
pos 用 户 


















































AZ audit send. audit send 的 核心 是 调用 














Linux 系统 调用 sendto， 也 就 是 通过 


^* audit netlink 2| 然后 HR REN TRUE E 


些 消 ， 





昌 后 ,不 做 任何 处 理 ， 再 发 还 


态 的 接口 ，sshd 发 送 的 消息 
A audit netlink ERF, 但 是 套 


























接 字 的 端口 -号 换 成 e 相关 
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的 端口 号 。 用 户 态 的 auditd 进程 会 接收 这 些 消 息 。 这 种 设计 有 些 怪异 ， 用 户 态 产生 的 消息 不 直 
接 发 送 给 用 户 态 的 auditd， 而 发 给 内 核 ， 由 内 核 转 发 给 用 户 态 的 auditd。 
3. auditd 










































































第 三 个 来 源 是 auditd 本 身 ， 这 个 就 不 细 说 了 。auditd 本 身 是 一 个 用 户 态 守护 进程 ， 不 


同 的 是 ， 














它 不 会 把 自身 产生 的 audit 消息 传 入 内 核 ， 而 是 直接 发 送 给 audispd， 


audit.log. 

4. 系统 调用 
最 重要 的 一 个 来 源 ， 因 为 前 三 个 来 源 都 是 日 志 ， 不 是 审计 ， 只 有 这 个 来 源 才 是 审计 。 
独立 的 个 体 做 正式 的 检查 ， 它 检查 的 对 象 是 用 户 态 进 程 ， 检 查 点 设置 在 系统 调用 的 实 


这 是 
内 核 作为 
HEH o 

先 看 












































同时 写 入 





























系统 调用 入 口中 的 audit £F K At: 





arch/x86/kernel/entry 64.S 


auditsys: 

movq $rl10,$r9 /* 6th arg: 4th syscall arg */ 
movq £rdx,$r8 /* 5th arg: 3rd syscall arg */ 
movq $rsi,$rcx /* 4th arg: 2nd syscall arg */ 
movq £rdi,£$rdx /* 3rd arg: 1st syscall arg */ 
movq £rax,£$rsi /* 2nd arg: syscall number */ 


movl S$AUDIT ARCH X86 64,$£edi /* lst arg: audit arch */ 


call audit syscall entry 
LOAD ARGS 0 /* reload call-clobbered registers */ 
jmp system call fastpath 


/* 


* Return fast path for syscall audit. Call audit syscall exit() 











* directly and then jump back to the fast path with TIF SYSCALL AUDIT 


* masked off. 
uA 
sysret audit: 





movq RAX-ARGOFFSET($rsp),$rsi /* second arg, syscall return value */ 





cmpq $-MAX ERRNO,$rsi  /* is it < -MAX ERRNO? */ 
setbe $al /* 1 if so, 0 if not */ 
movzbl $2al,$£edi /* zero-extend that into $edi */ 





call _ audit syscall exit 
movl $( TIF ALLWORK MASK & TIF SYSCALL AUDIT),$edi 
jmp sysret check 



























































这 两 个 函数 : 
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在 系统 调用 的 入 口 调用 audit syscall entry， 在 出 口 调用 — audit syscall exit。 下 面 看 一 下 


A 
[E 
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void _audit syscall entry(int arch, int major, 
unsigned long al, unsigned long a2, 
unsigned long a3, unsigned long a4) 


struct task struct *tsk - current; 


struct audit context *context = tsk-»audit context; 
























































context-»arch = arch; 
context-»major = major; 
context-»argv[0] = al; 
context-»argv[l] = 82; 
context->argv[2] = a3; 回 audit context 中 赋值 系统 
context-»argv[3] = a4; 调用 号 和 系统 调用 的 前 4 个 
参数 
if (!context-»dummy && state == AUDIT BUILD CONTEXT) { 
context-»prio = 0; : 
n 检查 audit 规则 





state-audit filter syscall(tsk,context,&audit filter list[AUDIT 
FILTER ENTRY]); 














void audit syscall exit(int success, long return code) 
{ 
struct task struct *tsk - current; 


struct audit context *context; 


if (success) 
success = AUDITSC SUCCESS; 
else 








success = AUDITSC FAILURE 








context = audit get context(tsk, success, return code); 检查 audit 规则 
if (!context) 
return; 


if (context-»in syscall && context-»current state == AUDIT RECORD CONTEXT) 
audit log exit(context, tsk); 








生成 审计 消息 











context-»in syscall = 0; 





context-»prio = context-»state == AUDIT RECORD CONTEXT ? ~OULL : 0; 


if (!list empty(&context-»killed trees)) 
audit kill trees(&context-»killed trees); 


145 


Linux [4 Zc BRE AN ST 





audit free names (context); 





unroll tree refs(context, NULL, 0); 


audit free aux(context); 





context-»aux = NULL; ys 





hm 





Z audit context 

















context-»aux pids = NULL; 

context-»target pid = 0; 

context-»target sid = 0; 

context-»sockaddr len = 0; 

context-»type = 0; 

context-»fds[0] = -1; 

if (context-»state !- AUDIT RECORD CONTEXT) { 
kfree(context-»filterkey); 
context-»filterkey = NULL; 

} 


tsk-»audit context = context; 


















































除了 这 两 个 钩子 函数 , 还 有 许多 audit 钩子 函数 分 布 在 系统 调用 的 函数 调用 路 径 中 。 这 些 钧 
子 函数 都 在 做 一 件 事 : 将 信息 填 入 进程 的 audit_context 结构 中 。 下 面 看 一 下 audit context 结构 : 























kernel/audit.h 


struct audit context { 


int major;/* syscall number */ 









































unsigned long argv[4]; /* syscall arguments */ 用 于 规则 匹配 的 
long return code;/* syscall return code */ v 
int return valid; /* return code is valid */ 成 员 
struct sockaddr storage *sockaddr; 
size t sockaddr len; 
/* Save things to print about task struct */ 
pid t pid, ppid; 
kuid t uid, euid, suid, fsuid; 
kgid t gid, egid, sgid, fsgid; 
unsigned long personality; 
int arch; 
pid t target pid; 
kuid t target auid; 
kuid t target uid; 
unsigned int target sessionid; 
u32 target sid; 
char target comm[TASK COMM LEN]; 
, l 用 于 记录 系统 调 
struct audit names preallocated names[AUDIT NAMES]; 用 接触 的 文件 











int name count; /* total records in names list */ 





struct list head names list; /* struct audit names-»list anchor */ 
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struct audit tree refs *trees, *first trees; 
struct list head killed trees; 











用 于 记录 系统 调用 接触 的 





































































































int tree count; E 
union { 
struct { 
ed 用 于 生成 审计 消息 所 需 的 
long args[6]; M 
) socketcall; 信息 
struct 4 
kuid t uid; 
kgid t gid; 
umode t mode; 
u32 osid; 
int has perm; 
uid t perm uid; 
gid t perm gid; 
umode t perm mode; 
unsigned long qbytes; 
) ipc; 


}; 


}; 














在 进程 的 task. struct 中 有 一 个 指针 指向 一 个 audit context 实例 。 在 audit context 中 有 一 部 


分 成 员 用 于 规则 匹配 ,一 部 分 成 员 用 于 生成 审计 消息 ,文件 和 目录 的 处 理 比较 复杂 , audit context 
中 有 一 些 成 员 专 门 用 于 文件 和 目录 的 审计 。 


14.2.2 ”规则 列表 


内 核 为 audit 规则 设置 了 六 个 列表 : User、Task、Entry、Watch、Exit 和 Type， 依 次 对 应 
audit filter list 数组 的 第 0 一 第 5 个 元 素 。 代 码 如 下 。 





























































































































kernel/auditfilter.c 

struct list head audit filter list[AUDIT NR FILTERS] = ( 

LIST HEAD INIT(audit filter list[0]), 

LIST HEAD INIT(audit filter list[1]) 

LIST HEAD INIT(audit filter list[2]) 

LIST HEAD INIT(audit filter list[3]), 
( ) 
( ) 





LIST HEAD INIT(audit filter list[4 
LIST HEAD INIT(audit filter list[5 














#if AUDIT NR FILTERS !- 6 

terror Fix audit filter list initialiser 

tendif 

}; 

static struct list head audit rules list[AUDIT NR FILTERS] = { 





LIST HEAD INIT(audit rules list[0]), 
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LIST H 
LIST H 
LIST H 
LIST H 
LIST H 


EAD INIT 
EAD INIT 


(audit rules list 
( 
EAD INIT( 
( 
( 


audit rules list 
audit rules list 
EAD INIT 
EAD INIT 


audit rules list 











audit rules list 
}; 


[1]) 
[2]) 
[3]), 
[4]) 
[5]) 


, 


, 


, 


, 











[1 





























于 规则 








audit filter list ULf, audit rules list 


^S 


套 接 字 传 送 “AUDIT LIST RULES” 消 息 给 内 核 时 ， 内 核 就 会 把 所 有 的 审 
处 ， 保 留 它 多 半 是 为 了 和 旧版 本 的 用 户 
































进程 。Watch 列表 已 经 没有 
大 多 数 情况 下 是 auditetl, 会 向 内 核 请 求 访问 某 个 规则 列表 























下 面 逐 一 解释 规则 列表 。 


1. User 




















于 规则 显示 。 当 用 户 



































态 进 程 通 过 netlink 
计 规 则 发 还 给 用 户 态 























s 比如 ; 











态 程 序 兼 容 。 用 户 
请 求 向 编号 为 4 (Exit) 的 列 开 
中 加 入 规则 。Watch 列表 的 编号 是 3, 删除 它 会 导致 其 后 的 列表 编号 变动 。 这 或 许 是 保留 它 的 原因 。 

















ie User 指 用 户 态 审 计 消 息 。 内 核 缺 省 是 将 所 有 接收 到 的 用 户 态 炎 




















管理 员 可 以 配置 规则 让 内 





auditd。 通 过 这 个 规则 队列 ， 


iius 





kernel/audit.c 


static int audit receive msg(struct sk buff *skb, 


{ 
struct sk buff *skb, 


case AUDIT USE 









































die ae 




















核 忽 上 略 某 些 


struct nlmsghdr *nlh { 











态 程序 ， 


struct nlmsghdr *nlh) 


E d 































































































ER: 、 x S 
case AUDIT FIRST USER MSG ... AUDIT LAST USER MSG: 用 户 态 的 消息 类 型 
case AUDIT FIRST USER MSG2 . AUDIT LAST USER MSG2: 
if (!audit enabled && msg type != AUDIT USER AVC) 
return 0; 
err = audit filter user (msg type); 查看 user 规则 队列 
if (err == 1) ( /* match or error */ 
如 果 规 则 表明 此 消息 
audit log common recv msg(&ab, msg type); 类 型 应 被 auditd 处 理 ， 
ii 则 构造 一 条 audit 消息 
audit set portid(ab, NETLINK CB(skb).portid); 发 送 给 auditd 


audit log end(ab); 
} 


break; 
} 
} 


下 面 看 一 下 audit filter user 的 实现 : 


kernel/auditfilter.c 
int audit filter user(int type) 
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ret = 1; /* Audit by default */ 





list for each entry rcu(e, &audit filter list[AUDIT FILTER USER], list) 
{ 















































rc = audit filter user rules(&e-»rule, type, &state); 检查 user 规则 队 
if (rc) 1 列 中 的 每 一 条 规 
if (rc > 0 && state -- AUDIT DISABLED) 则 
reg cu 如 果 规 则 匹配 , 并 且 规 
break; 则 表明 不 做 处 理 , 返回 
} 值 为 0 
} 











return ret; 


) 


2. Type 

前 面 的 User 规则 列表 针对 的 是 用 户 态 消息 类 型 ， 下 面 要 介绍 的 Type 规则 列表 针对 的 是 内 
核 产 生 的 消息 类 型 。 如 果 管 理 员 不 想 看 到 某 种 类 型 的 内 核 audit 消息 ， 则 可 以 生成 一 条 规则 ， 让 
内 核 不 发 送 这 种 类 型 的 audit 消息 到 auditd。 

前 面 讲 过 ， 其 他 内 核子 系统 如 果 要 产生 一 条 内 核 审计 消息 〈 日 志 性 质 的 消息 )， 需 要 先 调用 
audit log start 函数 。 下 面 看 一 下 audit log start: 











































































































kernel/audit.c 

struct audit buffer *audit log start(struct audit context *ctx, gfp t 
gfp mask, int type) 

{ 


if (unlikely(audit filter type(type))) 
return NULL; 


) 























如 果 在 Type 规则 队列 中 有 条 规则 规定 某 个 消息 类 型 “不 受 欢迎 ” 则 使 
的 audit buffer 是 空 的 ， 也 就 产生 不 了 相应 的 audit 消息 。 

3. Task 

audit 子 系统 对 进程 创建 有 特殊 照顾 ， 为 它 专门 创建 了 一 个 规则 列表 。 所 以 ， 对 于 clone 和 
fork 系统 调用 ， 除 了 要 经 过 下 面 提 到 的 Entry 和 Exit 两 个 规则 列表 外 ， 还 会 检查 Task 规则 列表 
中 的 规则 。 

4. Entry 

Entry 对 应 于 系统 调用 的 入 口 。 在 刚刚 进入 系统 调用 时 能 检查 站 
的 前 四 个 参数 。 





日 此 消息 类 型 获取 





































































































c 
































只 是 系统 调用 号 和 系统 调用 


kernel/auditsc.c 
void audit syscall entry(int arch, int major, 
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unsigned long al, unsigned long a2, 
unsigned long a3, unsigned long a4) 





context-»arch = arch; 

context-»major = major; 

context-»argv[0] = al; 

context-»argv[1] = a2; 

context-»argv[2] = a3; 

context-»argv[3] = a4; 

if (!context-»dummy && state == AUDIT BUILD CONTEXT) { 

context-»prio = 0; 
state = audit filter syscall(tsk, context,  &audit filter list[AUDIT 


FILTER ENTRY]); 
) 





5. Exit 
Exit 列表 是 最 重要 的 。Exit 规则 的 检查 点 是 在 系统 调用 结束 时 ， 此 时 是 数据 最 丰富 的 时 候 。 
调用 它 的 地 方 在 audit get context 中 ，audit get context 这 个 函数 名 很 难 让 人 想到 规则 匹配 。 
























































kernel/auditsc.c 





static inline struct audit context *audit get context(struct task struct 
*tsk, 
int return valid, 


long return code) 


if (context-»in syscall && !context-»dummy) { 


audit filter syscall(tsk, context,  &audit filter list[AUDIT FILTER 
EXIT]); 








audit filter inodes(tsk, context); 


tsk-»audit context = NULL; 
return context; 


14.2.3 ”对 文件 的 审计 


Linux audit 子 系统 对 文件 的 审计 有 三 套 方案 。 第 一 套 使 用 文件 的 inode 号 ， 第 二 套 使 用 文 
件 的 路 径 名 ， 第 三 套 使 用 目录 的 路 径 名 。 
1. 使 用 inode 号 审计 文件 
来 看 一 下 规则 匹配 的 代码 ; 
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已 











kernel/auditsc.c 

static int audit filter rules(struct task struct *tsk, 
struct audit krule *rule, 
struct audit context *ctx, 
struct audit names *name, 
enum audit state *state, 
bool task creation) 


for (i = 0; i < rule-»5field count; i++) ( 
struct audit field *f = &rule-»fields[i]; 
struct audit names *n; 


int result - 0; 





switch (f-»5type) ( 
case AUDIT INODE: 
if (name) 
result = audit comparator (name-»ino, 





f-»op, f-»val); 





else if (ctx) { 
list for each entry(n, &ctx-»names list, list) { 
if (audit comparator(n-»ino, f-»op, f-»val)) ( 
ttresult; 


break; 


} 
break; 


在 audit context 中 逐一 匹配 规则 中 存储 的 inode 号 。 


2. 使 用 文件 的 路 径 名 审计 文件 
使 用 文件 的 路 径 名 来 审计 文件 依赖 关键 数据 结构 audit watch。 在 audit filter rules 函数 中 


有 下 面 这 段 语 句 ; 















































case AUDIT WATCH: 


if (name) 
name-»ino, name-»dev); 


result = audit watch compare (rule-»watch, 


break; 
audit watch compare 的 函数 实现 是 : 
kernel/audit watch.c 
int audit watch compare (struct audit watch *watch, unsigned long ino, dev t dev) 


( 
return (watch-»ino !- 
(watch-»ino == ino) && 


(unsigned long)-1) && 
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(watch-»dev == dev); 

















看 起 来 和 前 面 的 基于 inode 号 的 方案 没有 什么 区 别 ,， 也 是 比较 inode 号 。 奥 妙 在 于 watch 中 
的 ino 的 值 可 以 是 “-1”， 表示 这 个 watch 还 未 生效 。watch 的 生效 依赖 于 另 一 个 数据 类 型 一 一 


audit parent: 
































kernel/audit watch.c 
struct audit watch { 





atomic t count; /* reference count */ 

dev t dev; /* associated superblock device */ 
char *path; /* insertion path */ 

unsigned long ino; /* associated inode number */ 
struct audit parent *parent; /* associated parent */ 

struct list head wlist; /* entry in parent-»watches list */ 
struct list head rules; /* anchor for krule-»rlist */ 


struct audit parent { 
struct list head watches; /* anchor for audit watch-»wlist */ 
struct fsnotify mark mark; /* fsnotify mark on the inode */ 


}; 











audit parent. 只 有 两 个 成 员 ， 一 个 是 fsnotify mark， 男 一 个 是 list， 串 起 相关 的 watch. 
audit parent 对 应 一 个 目录 ，audit watch 对 应 一 个 文件 。 当 用 户 为 一 个 文件 创建 一 个 audit watch 
时 ， 这 个 audit watch 就 被 串 入 audit parent 的 watches 链表 中 。audit watch 的 神奇 之 处 在 于 用 户 
可 以 为 还 不 存在 的 文件 创建 watch。 做 到 这 一 点 ， 需 要 audit parent 中 的 类 型 为 fsnotify_mark 的 


成 员 mark。 
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kernel/audit watch.c 
static int audit watch handle event(struct fsnotify group *group, 
struct inode *to tell, 





struct fsnotify mark *inode mark, 
struct fsnotify mark *vfsmount mark, 
u32 mask, void *data, int data type, 


const unsigned char *dname) 


struct inode *inode; 
struct audit parent *parent; 


parent = container of(inode mark, struct audit parent, mark); 
BUG ON(group != audit watch group); 
switch (data type) { 


case (FSNOTIFY EVENT PATH): 
inode = ((struct path *)data)-»dentry-»d inode; 
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break; 
case (FSNOTIFY EVENT INODE): 
inode = (struct inode *)data; 
break; 
default: 
BUG (); 
inode = NULL; 
break; 











}; 


if (mask & (FS CREATE|FS MOVED TO) && inode) 
audit update watch(parent, dname, inode-»i sb-»s dev, 











inode-»i ino, 0); 
else if (mask & (FS DELETE|FS MOVED FROM)) 
audit update watch(parent, dname, (dev t)-1, (unsigned 
































else if (mask & (FS DELETE SELF|FS UNMOUNT|FS MOVE SELF)) 
audit remove parent watches (parent); 








return 0; 


) 


static const struct fsnotify ops audit watch fsnotify ops = { 
.handle event - audit watch handle event, 





}; 

















fsnotify 是 Linux 内 核 中 的 一 个 机 制 ，audit 依靠 它 在 文件 发 生变 化 时 得 到 通知 。 当 目录 下 有 文 
件 创 建 或 删除 时 ，audit watch handle event 就 会 被 调用 。 当 文件 创建 时 ，audit watch 中 的 ino 会 
被 更 新 为 实际 的 文件 ino 号 ; 当 文件 被 删除 时 ，audit watch 中 的 ino 会 被 赋值 为 表示 无 效 的 “-1”。 
3. 使 用 目录 的 路 径 名 来 审计 文件 
使 用 目录 的 路 径 名 审计 文件 依赖 关键 数据 结构 audit_tree。 如 果 用 audit watch 审计 一 个 日 
录 下 的 所 有 文件 ， 那 么 就 需要 建立 许多 条 审计 规则 。 即 使 如 此 ， 仍 然 无 法 对 还 不 存在 并 且 不 知 
道 名 字 的 文件 实行 审计 。audit_watch 只 能 对 知道 名 字 但 还 不 存在 的 文件 建立 审计 规则 。 这 种 情 
况 束 需要 audit tree T o 

audit 子 系 统 设 计 了 两 个 结构 体 : audit tree 和 audit chunk。 在 逻辑 上 是 一 个 tree 包含 若干 
chunk. tree 代表 目录 树 ， 那 chunk W? chunk 这 个 英文 单词 的 意思 是 “一 大 块 ”， 这 个 单词 多 半 
是 trunk《〈 意 思 为 树干 ) 的 误 用 。 可 能 audit tree.c 的 作者 是 个 母语 非 英 语 的 程序 员 。 

目录 树 的 概念 比较 容易 理解 。“ 树 干 ” 是 什么 呢 ? “树干 ”就 是 文件 系统 的 挂 载 点 。 在 建立 
一 条 包含 目录 的 审计 规则 时 ， 内 核 audit 子 系统 会 构建 一 个 audit tree 实例 ， 同 时 循 目录 遍历 ， 
一 遇 到 挂 载 点 就 构建 audit_ chunk 实例 ,并 将 其 关联 到 audit tree 中 。 在 涉及 文件 的 系统 调用 中 ， 
内 核 audit 系统 的 钩子 函数 会 查询 文件 所 在 文件 系统 的 挂 载 点 ， 将 其 记录 到 进程 的 audit_context 
中 。 在 系统 调用 结束 时 ， 对 audit context 进行 检查 。 


14.3 ”接口 






















































































































































































































































































audit 子 系统 利用 netlink 套 接 字 作为 它 的 用 户 态 空间 和 内 核 空 间 的 接口 。 在 auditd 或 其 他 
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使 用 audit 的 用 户 态 应 用 中 有 如 下 语句 : 














int fd = socket (PF NETLINK, SOCK RAW, NETLINK AUDIT); 























这 表示 打开 一 个 域 为 NETLINK 协议 为 NETLINK AUDIT 的 套 接 字 。 套 接 字 缺 乏 自 主 访问 
控制 ， 在 强制 访问 控制 (比如 SELinux) 不 生效 的 情况 下 ， 这 条 语句 总 会 成 功 。 在 向 audit 的 套 
接 字 写 入 消息 时 ， 在 内 核 代 码 中 会 根据 消息 类 型 判断 进程 需要 的 能 力 。 代 码 如 下 : 



































kernel/audit.c 
static int audit netlink ok(struct sk buff *skb, ul6 msg type) 
{ 


int err = 0; 


/* Only support the initial namespaces for now. */ 
if ((current user ns() != &init user ns) || 
(task active pid ns(current) !- &init pid ns)) 
return -EPERM; 














switch (msg type) { 
case AUDIT LIST: 
case AUDIT ADD: 
case AUDIT DEL: 
return -EOPNOTSUPP; 
case AUDIT GET: 
AUDIT SET: 这 些 类 型 需要 CAP AUDIT CONTROL 
AUDIT GET FEATURE: 能 
AUDIT SET FEATURE: 
AUDIT LIST R : 
case AUDIT ADD RUI 
case AUDIT DEL RULE: 
A L 
A 
A 
A 
A 
( 











旧 类 型 ， 已 经 不 支持 

















case 
case 











case 





case 





case AUDIT_SIGNAL_INFO: 
UDIT TTY G 
UDIT TTY S 
UDIT TRIM: 
case AUDIT MAKE EQUIV: 
IE !capable(CAP AUDIT CONTROL)) 
err = EPERM; 可 内 核 传递 用 户 态 审计 消息 ， 需 
break; 要 CAP AUDIT WRITE 能 
case AUDIT USER: 
case AUDIT FIRST USER MSG ... AUDIT LAST USER MSG: 
case AUDIT FIRST USER MSG2 ... AUDIT LAST USER MSG2: 
if (!capable(CAP AUDIT WRITE)) 
err = -EPERM; 
break; 
default: /* bad msg */ 
err = -EINVAL; 


case 





case 





case 










































































return err; 
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netlink 套 接 字 作为 audit 子 系统 在 内 核 和 用 户 态 之 间 的 接口 ， 主 要 用 于 两 类 工作 。 一 类 是 传递 
audit 消息 ， 既 可 以 是 内 核 向 用 户 态 传递 ， 也 可 以 是 用 户 态 向 内 核 传递 。 如 sshd 进程 就 向 内 核 传递 用 
户 登 录 的 审计 消息 。 内 核对 这 类 消息 不 做 处 理 ， 直 接 转发 给 auditd 进程 。 另 一 类 是 对 内 核 audit 子 系 
统 进行 控制 ， 如 注册 auditd 进程 ， 修 改 audit 规则 ， 调 整 内 核 audit 缓冲 区 参数 等 。 向 内 核 传递 第 一 
类 消息 需要 CAP AUDIT WRITE 权限 ， 传 递 第 二 类 消息 需要 CAP. AUDIT CONTROL 权限 。 
即使 没有 用 户 态 守护 进程 auditd， 内 核 audit 子 系统 也 能 工作 ， 它 将 不 通过 netlink 套 接 字 送 出 消 
息 ， 而 是 改 为 直接 调用 printk。 相 应 地 ，audit 消息 就 会 出 现在 prockmssg H. Æ MARIS: 



























































































































































kernel/audit.c 
void audit log end(struct audit buffer *ab) 


{ 


if (audit pid) { 
Skb queue tail(&audit skb queue, ab-»skb); 
wake up interruptible(&kauditd wait); 

) else { 
audit printk skb(ab-»skb); 

} 


} 


此 外 ， 与 audit 相关 的 内 核 和 用 户 态 接口 还 包括 一 个 proc 伪 文 件 系统 的 文件 : 
/proc/[pid]/loginuid。 它 用 于 修改 进程 的 loginuid。loginuid 就 是 进程 的 task. struct 中 的 auid， 它 
是 audit 子 系统 引入 到 内 核 的 ， 用 于 记录 进程 的 登录 id. loginuid/auid 不 随 setuid 等 系统 调用 改 
变 ， 通 过 它 可 以 更 好 地 跟踪 一 个 进程 的 行为 。 


14.4 规则 





















































14.2 节 讲 述 了 内 核 audit 子 系统 的 架构 ,下 面 梳理 一 下 audit 的 规则 。 一 条 audit 规则 有 四 个 
组 成 部 分 : 队列 、 动 作 、 系 统 调 用 、 域 (field)。 

(D 队列 

队列 就 是 前 面 提 到 的 五 个 规则 队列 : User、Task、Entry、Exit 与 Type。 

(2) 动作 

动作 有 两 个 选项 : never 与 always。 分 别 表示 不 审计 和 审计 。 

(3) 系统 调用 


















































































































































系统 调用 表示 在 哪个 或 哪些 系统 调用 下 做 审计 。 系 统 调用 可 以 多 选 ， 甚 至 全 选 。 内 核 用 一 
个 bit 表示 一 个 系统 调用 。 
(4) 域 





域 的 结构 是 name op value， 如 euid=1000。“name” 是 “euid” “op” 是 “=”; “value” 是 
“1000” 下 面 系统 地 解释 一 下 name op value. 

先 说 value, value 是 整数 或 字符 串 。 再 说 op，op 的 值 限定 为 : =、!=、<、>、<=、>=、&、 
&=。 前 几 个 操作 好 理解 ， 最 后 两 个 不 大 直观 。 们 操作 是 将 左 值 和 右 值 做 与 操作 ， 非 0 即 为 满足 条 
件 。&= 是 将 左 值 和 右 值 做 与 操作 ， 然 后 判断 操作 的 结果 和 右 值 是 否 相等 ， 相 等 才 视 为 满足 条 件 。 

最 后 看 最 复杂 的 name, name 的 可 选 值 为 : 
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uid: 进程 的 uid. 
euid: 进程 的 euid. 
suid: 进程 的 suid. 
fsuid: 进程 的 fsuid. 


loginuid: 进程 的 loginuid。 它 是 通过 接口 /proc/[pidj/loginuid 设置 的 ， 后 续 的 setuid 等 系统 调 



































obj uid: 文件 的 属 主 uid. 
gid: 进程 的 gid。 

egid: 进程 的 egid。 

sgid: 进程 的 sgid。 

fsgid: 进程 的 fsgid。 
obj_gid: 进程 的 属 组 id。 
pid: 进程 的 pid。 











用 不 会 改变 loginuid。 一 般 是 负 用 户 登 录 的 系统 进程 设置 loginuid， 记 录用 户 登 录 时 的 id。 





pers: 进程 的 task_ struct 中 的 personality. personality 的 本 意 是 帮助 Linux 内 核 运 行 其 他 
类 UNIX 系统 的 应 用 程序 。 这 个 目标 并 没有 完成 。 在 第 23 章 中 提 到 了 利用 personality 





配置 进程 地 址 随机 化 。 
msgtype: audit 消息 类 型 。 
ppid: 父 进 程 pid。 
devmajor: 设备 的 主 设备 号 。 
devminor: 设备 的 次 设备 号 。 


exit: 系统 调用 的 返回 值 。 






































success: 系统 调用 是 否 成 功 返 回 ， 非 0 值 




















inode: 文件 的 inode 号 。 

arg0: 系统 调用 的 第 一 个 参数 。 
argl: 系统 调用 的 第 二 个 参数 。 
arg2: 系统 调用 的 第 三 个 参数 。 
arg3: 系统 调用 的 第 四 个 参数 。 









































ZH 2H HO H 























表示 成 功 ，0 表示 失败 。 


subj user: 5 SELinux 相关 ， 主 体 的 user. 


subj role: 与 SELinux 相关 ， 主 体 的 role。 


subj type: 与 SELinux 相关 ， 主 体 的 type。 


subj_sen: 与 SELinux 相关 ， 主 体 的 sensitivity。 


subj clr: 5 SELinux 相关 ， 主 体 的 category, clr 来 自 category 的 另 一 个 名 称 clearance. 


obj user: 与 SELinux 相关 ， 客 体 的 user. 
obj role: 与 SELinux 相关 ， 客 体 的 role. 
obj type: 与 SELinux 相关 ， 客 体 的 type. 








obj lev low: 与 SELinux 相关 ， 客 体 的 低 level。 在 SELinux "F, level 由 sensitivity 和 


category 组 成 。 客 体 的 level 可 以 设 定 为 


一 个 范 

















围 。 


obj lev high: 与 SELinux 相关 ， 客 体 的 高 level。 


obj watch: 文件 的 路 径 名 。 
obj dir: 目录 的 路 径 名 。 
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€ filter key: filter key 的 作用 是 设置 一 个 出 现在 审计 消息 中 的 字符 串 ， 通 过 它 可 以 方便 分 
类 审计 消息 。 

€ loginuid set: loginuid set 对 应 的 value 是 一 个 bool fj. (1 或 0)， 代 表 进 程 的 loginuid 是 
否 被 设置 过 。 

@ arch: 架构 ， 在 支持 多 架构 的 内 核 上 使 用 。 

@ perm: 文件 的 允许 位 。 

© filtertype: 文件 的 类 型 ， 包 括 普 通 文 件 、 目 录 、 块 设备 ……: 

以 上 是 规则 的 基本 构成 ， 在 代码 中 还 规定 了 一 些 限制 : 








CD. 队列 entry 对 应 的 动作 只 能 是 “ 


» 


never 











(2) 域 msgtype 所 在 的 规则 
G) 以 下 域 的 op 不 能 是 “ 


H5 AE 








只 能 出 现在 队列 type 或 队列 user 中 。 
&" 和 “g=” 


uid, euid, suid, fsuid, loginuid, obj uid. gid, 


egid、 sgid, fsgid. obj gid. pid. pers. msgtype. ppid. devmajor、 devminor. exit, success. inode. 


(4) Ek loginuid set 对 应 的 value 只 
(5) fX arch 对 应 的 op 只 能 是 








C Co» > oq, » 
=” 或 “!=”。 











能 是 0 或 1， 对 应 的 op 只 能 是 “=” 或 “!=”。 


(6) EÈ perm 对 应 的 value 是 一 个 整数 ， 只 有 最 低 4 个 bit 可 以 被 置 为 1。 









































































































































C7) 域 filetype 对 应 的 value 是 一 个 整数 ， 对 它 的 合法 性 检查 为 : 
if (f->val & ~S IFMT) return -EINVAL; 

14.5 总 结 

审计 的 两 大 特征 是 正式 的 审查 和 独立 的 个 体 。 内 核 审 计 子 系统 的 审计 对 象 自然 是 用 户 态 进 
程 ， 审 计 点 自然 在 内 核 的 系统 调用 之 中 。 内 核 审计 子 系统 混杂 了 日 志 功 能 。 从 设计 的 角度 看 ， 
这 不 太 好 。 如 果 仅 仅 是 包含 了 内 核 产生 的 日 志 消息 ， 还 算 差强人意 。 而 内 核 审计 子 系统 偏偏 还 
要 做 用 户 态 “审计 ”日 志 消 息 转发 ， 这 就 有 些 莫名 其 妙 了 。 

内 核 审计 子 系统 提供 的 审计 规则 不 能 称 作 精美 。 有 些 规 则 实在 很 难 用 到 ， 例 如 “pers”。 有 


些 规 则 又 和 内 核 特定 模块 紧密 耦合 ， 










































































例如 专 为 SELinux 提供 的 subj user. subj role. subj type. 


subj sen, subj clr. obj user. obj role. obj type. obj lev low. obj lev high。 首 先 ，SELinux 


不 是 Linux 内 核 的 必 备 模块 ; 














计 





子 系统 工作 的 必需 模块 。 
内 核 审 计 子 系统 的 消息 输出 


























被 淹没 了 ， 要 么 根本 没有 出 现 。Linux 初学 者 会 感觉 




















消息 中 有 用 信息 太 少 。 
审计 子 系统 的 文档 非常 少 
计 子 系统 肯定 被 修改 
i 是 让 代码 阅读 者 感到 



























































14.6 参考 资料 


读者 可 参考 以 下 资料 : 


也 不 能 称 作 精 美 。 消 息 





中 充斥 了 大 量 的 见 和 





审计 消息 深奥 难 懂 ， 而 深入 而 


























余 信 息 ， 


其 次 ，SELinux 不 是 Linux 安全 的 必 有 备 模块 ; 最后，SELinux 不 是 








有 用 

















的 信息 




















^, 


了 解 它 的 最 好 方 
了 多 次 。 
困惑 。 





法 


就 是 直接 阅读 代码 。 
一 些 已 不 起 作用 的 陈旧 代码 还 





残留 在 代码 中 ， 








https://www.suse.com/documentation/slesll/book security/data/part audit.html 


究 者 又 


它们 唯 
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syslog 
































15.44 简介 

在 Linux 中 提 到 的 syslog 有 两 个 含义 。 一 个 是 指 用 户 态 守护 进程 syslogd， 各 个 进程 ， 主 要 
是 守护 进程 ， 调 用 特定 的 函数 接口 将 日 志 信 息 发 给 它 ， 它 负责 将 这 些 消息 存储 到 系统 日 志 
另 一 个 是 系统 调用 syslog， 这 个 系统 调用 会 影响 内 核 产 生 的 日 志 消 息 。 本 章 要 讲 的 是 syslog 的 
第 二 个 含义 。 下 面 先 看 一 下 函数 原型 ; 

int syslog(int type, char *buf, int len); 

buf 和 len 的 含义 不 用 解释 ， 下 面 看 一 下 type 的 取 值 : 

0 关闭 日 志 ， 目 前 没有 实现 

1 打开 日 志 ， 目 前 没有 实现 

2 读 日 志 

3 从 缓冲 中 读 出 全 部 消息 

4 从 缓冲 中 读 出 全 部 消息 ， 并 清除 缓冲 

5 清除 缓冲 

6 不 让 printk 输出 消息 到 控制 台 (console) 

7 让 printk 输出 消息 到 控制 台 (console) 

8 设置 输出 到 控制 台 消息 的 级 别 

9 返回 在 缓冲 中 未 被 读 出 的 字 节 数 

10 返回 缓冲 大 小 
15.2 日志 缓冲 

Linux 内 核 使 用 一 个 环形 缓冲 〈cyclic buffer 或 ring buffer). WIZA% printk0 将 接收 到 的 参 


数 存 储 在 这 个 环形 缓冲 之 中 。 环 形 缓冲 中 的 部 分 消 ， 
中 的 内 容 ， 清 除 环形 缓 六 

syslog 的 三 个 参数 不 会 都 用 到 , 在 第 一 个 参数 为 某 些 值 时 ， 第 二 个 或 第 三 个 参数 会 被 忽 
以 下 对 被 忽略 的 参数 





ERN 














内 容 和 配置 哪些 消 






































AN PE 








VAR EL s E 
aw. 





syslog(5 


syslog(7,dummy,dummy), syslog(8,dummy,level) fl 4E V H 2 
dummy) 将 loglevel 设置 为 最 小 值 


dummy) 将 logle 


内 核 日 志 函 数 的 处 理 逻 辑 是 这 样 的 , 如 果 消 ， 
就 会 被 输出 到 控制 台 。 消 息 的 level 值 取 值 范 
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最 后 len AF 
, dummy, dummy) 





只 做 一 件 事 : B 
































“dummy” 表 示 。syslog(2, buf, lem) 会 被 阻塞 ， 直 到 内 核 日 志 组 六 
容 ， 它 最 多 读 len 个 字 节 ， 读 完成 后 ， 读 过 的 内 容 会 从 内 核 日 志 组 六 
。Syslog(4, buf, lem) 比 syslog(3, buf, len) € 
A 4% H REP 

















息 会 输出 到 控制 台 。syslog 的 作用 是 读 出 环 
县 会 从 环形 缓冲 输出 到 控制 台 。 

各 ， 

h 中 有 内 























中 清除 。syslog(3, buf, len) 
改 一 件 事 : 清 内 核 日 志 








H 
































vel 设置 为 缺 省 值 





， 恢 复 了 消息 输出 













































































， 结 果 就 是 没有 消息 能 被 输出 到 控 











息 的 level 小 于 变量 console loglevel, 这 个 消 ) 
围 是 0 一 7: 


syslog(6,dummy,dummy), 























*& loglevel 的 值 ，syslog(6,dummy, 
Br, syslog(7,dummy, 
到 控制 台 的 功能 。 








F1 


" 
U^ 


7B 15 3$ syslog 








include/linux/kern levels.h 


define KERN EMERG 





KER 





define KERN ALERT 
define KERN CRIT 
define KERN ERR 








define KERN NOTICE 


define KERN WARNING 


KER 
KER 
KER 


Ed. pu Du 


KER 





define KERN INFO 


define KERN DEBUG 





























KER 














KER 





所 以 当 console loglevel 被 设置 为 1 





_SOH 
_SOH 
_SOH 
_SOH 
KER 
_SOH 
_SOH 
_SOH 








; i 





的 缺 省 值 是 7， 设 置 为 缺 省 值 的 意思 



































console loglevel 设置 成 8 或 8 以 上 的 值 


"Qn 
ngn 
"2" 
"3n 

| SOH 
"5n 
"gn 
"Jn 





/* system is unusable */ 





/* action must be taken immediately */ 
/* critical conditions */ 
/* error conditions */ 

wai /* warning conditions */ 
/* normal but significant condition */ 
/* informational */ 


/* debug-level messages */ 





























时 ， 

















fuus, dp que QR 





printk anian 息 的 主要 来 源 ， 但 不 是 唯一 来 源 。 男 一 个 来 源 是 用 户 态 空 间 ， 这 很 有 
趣 ， 用 户 态 应 用 可 以 通过 写 入 /dev/kmsg 来 向 内 核 日 志 缓冲 注入 消息 。 在 打开 /dewkmsg 时 ， 内 
核 代 码 有 权限 检查 ， a cap syslog 或 者 cap sys admin 能 力 ， 在 内 核 强制 访问 控制 模块 例 












































如 SELinux 中 ， 还 有 其 他 检查 。 

















15.3 读 取 日 志 


在 Linux 中 ， 读 取 内 核 日 志 组 六 














(1) syslog 系统 调用 

















syslog 系统 调用 的 第 一 个 参数 type 值 





(2) 控制 台 




















就 只 有 最 紧急 的 消息 会 被 输出 到 控制 台 。console loglevel 




















是 除 debug 消息 之 外 的 消息 都 会 被 输出 到 控制 台 。 当 把 
所 有 的 内 核 日 志 消息 都 会 被 输出 到 控制 台 。 





























息 的 主要 来 源 。printk 的 实现 很 简单 , 调用 了 vprintk emit, vprintk_ 
emit 的 实现 复杂 一 些 ， 核 心 的 操作 是 调用 了 log store. log store 将 日 志 消 息 存 入 日 志 缓冲 之 中 。 























F 中 日 志 消 | 


为 2、 










































































RI ARE: 


3、4， 供 读 取 内 核 日 志 用 。 


前 面 提 到 消息 级 别 低 于 loglevel 的 内 核 消 息 会 被 输出 到 console。 


(3) /dev/kmsg 


打开 设备 文件 /dev/kmsg， 执 行 读 ] 





(4) /proc/kmsg 


读 /proc/kmsg 就 是 读 内 核 日 志 缓冲 。 








操作 就 可 以 获得 内 核 日 志 消 息 。 


此 外 在 系统 崩溃 时 ， 内 核 代 码 还 会 “抢救 性 ”地 将 尽 可 能 多 的 日 志 输 出 到 终端 上 。 相 关 代 








但 在 drivers/mtd/mtdoops.c 中 。 这 还 不 够 ， 月 

















骨 澳 的 时 候 硬盘 可 能 已 经 不 能 























户 希 望 系统 骨 溃 时 日 志 内 容 能 存储 在 硬盘 上 ， 但 是 
了 ， 于 是 就 出 现 了 基于 系统 的 非 易 失 性 Cnon-volatile) 存储 设 








备 的 pstore 文件 系统 9。 系统 崩溃 时 将 日 志 存 储 到 pstore 之 中 。 
上 面 提 到 了 /proc/kmsg 和 /dewkmsg 这 两 个 “特殊 ”文件 ， 索 性 再 叙述 一 下 另 一 个 和 syslog AX 
的 文件 /proc/sys/kernel/printk。 此 文件 可 读 写 , 通 


default message loglevel、minimum console level、 
制 输 出 到 控制 台 的 内 核 日 志 消 息 ， 
default message loglevel 用 于 为 没有 明确 # 
































© 见 http://Iwn.net/Articles/434821/. 
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上 定 消息 level 的 消息 赋 level ffi. minimum console level 














过 它 可 以 读 取 和 修改 4 个 内 核 变量 : console loglevel、 




















default console loglevel。console loglevel 用 于 控 
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指定 了 可 以 为 console level 赋 的 最 小 值 。default_ console loglevel 指定 了 console loglevel 的 缺 省 值 。 
































15.4 netconsole 








内 核 日 志 系 统 会 将 日 志 缓冲 中 的 消息 输出 到 所 有 已 注册 的 控制 台 。 ecd 是 一 个 特殊 
的 console， 它 的 write 函数 被 实现 为 将 数据 通过 网 络 传输 到 另 一 台 计 算 机 。 通 过 netconsole， 内 
核 的 日 志 消 息 就 会 被 输出 到 网 络 上 的 另 一 台 计 算 机 。 

netconsole 的 设置 有 静态 和 动态 两 种 方式 。 

静态 是 指 在 内 核 启 动 或 模块 加 载 时 配置 参数 。 如 果 netconsole 被 编译 进 内 核 ， 静 态 就 是 在 
启动 时 向 内 核 传 递 参数 来 配置 netconsole， 如 果 netconsole 被 编译 为 模块 ， 就 在 模块 加 载 时 传递 
参数 。 参 数 的 样子 是 : 


netconsole-66660192.168.1.28/eth0 
















































































语句 表示 将 控制 台 〈console) 消息 发 送 到 IP HHE 192.168.1.28 的 端口 6666. 
I log 接收 点 : 














netconsole=6666@192.168.1.28/eth0,6666@192.168.1.19/00:13:32:20:r9:a5 


动态 就 是 在 运行 中 配置 ， 前提 是 系统 支持 configfs， 并 日 configfs 已 经 挂 载 ， 比 如 挂 载 到 了 
/sys/kernel/config。 这 时 在 /sys/kernel/config/netconsole 下 创建 一 个 子 目 录 ， 比 如 叫 targetl. TE 
target] 下 就 会 出 现 几 个 文件 : enabled. dev name, local port. remote port. local ip. remote ip. 
local mac, remote mac。 举例 如 下 : 

















echo 0 > enabled 
echo eth2 > dev name # set local interface 
echo 10.0.0.4 » remote ip # update some parameter 





echo cb:a9:87:65:43:21 » remote mac 4 update more parameters 





echo 1 » enabled # enable target again 











只 有 在 enabled 为 0 的 情况 下 ， 才 能 改变 几 个 文件 ， 所 以 第 一 步 是 将 enabled 置 为 0， 然后 在 配 
置 文件 中 写 入 内 容 ， 最 后 一 步 是 将 enabled 置 为 1。 


15.5 参考 资料 


读者 可 参考 以 下 资料 : 


man 3 syslog 

















man 2 syslog 


Documentation/networking/netconsole.txt 
2] 


在 你 所 使 用 的 Linux 发 行 版 的 启动 脚本 中 寻找 修改 /proc/sys/kernel/printk 文件 内 容 的 地 方 。 
修改 该 文件 内 容 ， 观 察 Linux 系统 启动 过 程 中 屏幕 上 显示 消息 的 变化 。 
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第 五 部 分 





加 密 的 本 质 是 通过 计算 来 混 涌 数据 ， 让 攻击 者 必 
还 原 为 原始 数据 。 既 然 加 密 的 本 质 是 计算 ， 忆 











cu 
[i " 
pr 


首 密 钥 的 情况 下 很 难 将 加 密 后 的 数据 


























内 核 中 包含 加 密 相关 的 子 系统 的 主要 原因 


eCryptfs 和 dm-crypt. 





了 么 加 密 操 作 并 没有 必要 一 定 存 在 于 内 核 态 。Linux 























些 内 核子 系统 需要 在 内 核 中 做 加 密 操 作 ， 比 如 


第 16 章 密 钥 管 理 


16.1 简介 

















编码 、 加 密 和 密 钥 是 儿 个 有 联系 但 又 有 区 别 的 概念 。 编 码 是 运用 算法 将 一 段 数据 (输入 
































) 


转变 为 男 一 段 数据 (输出 )。 输 入 和 输出 的 数据 长 度 不 一 定 相 等 。 base64 是 一 种 编码 算法 , SHA-1 











也 是 一 种 编码 算法 。 而 SHA-1 又 是 一 种 加 密 算 法 。 加 密 也 是 将 一 段 数据 〈 输 入 ) 转变 为 另 一 




















数据 〈 输 出 )。 加 密 的 特殊 性 在 于 ， 加 密 算 法 的 输入 有 两 个 ， 一 个 是 待 加 密 的 数据 ， 另 一 个 是 密 


























段 


xt 


钥 。 加 密 算 法 保证 在 不 知道 密 钥 的 情况 下 ， 很 难 从 输入 推导 出 输出 ， 也 很 难 从 输出 推导 出 输入 。 












































密 钥 的 本 质 是 一 段 数 据 ， 数 据 长 度 和 加 密 算 法 有 关 。 

不 同 的 加 密 算法 对 密 钥 有 不 同 的 要 求 。 如 果 加 密 算法 要 求 加 密 和 人 解密 使 用 相同 的 密 角 ， 
种 密 钥 就 称 为 对 称 密 钥 。 反 之 ， 就 称 为 非 对 称 密 钥 。 非 对 称 密 钥 有 两 个 ， 一 个 公开 发 布 ， 称 
公 钥 ; 另 一 个 秘密 保存 ， 称 为 私 钥 。 
























































































































































密 钥 本 质 上 是 一 段 数 据 ， 内 核对 它 的 管理 有 些 类 似 对 文件 的 管理 。 但 是 因为 Linux 内 核 不 愿 








本 章 介绍 内 核 密 钥 管理 子 系统 ， 只 涉及 内 核 如 何 管理 密 铀 ， 不 涉及 内 核 加 密 算 法 的 实现 。 


这 
为 


A 























让 密 钥 像 文 件 那样 “静态 ”存储 在 磁盘 或 者 其 他 永久 性 存储 介质 上 ， 所 以 内 核对 密 钥 的 管理 
有 些 像 对 进程 的 管理 ， 有 创建 、 实 例 化 、 删 除 等 操作 。 







































































16.2 ”架构 


16.2.1 数据 结核 
密 钥 在 内 核 代 码 中 称 为 key， 先 看 一 下 key 的 定义 。 








include/linux/key.h 
struct key ( 


key serial t serial; 


struct key user *user; 
kuid t uid; 

kgid t gid; 

key perm t perm; 


void *security; 


unsigned short datalen; 
union { 
union { 
unsigned long value; 
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AL 


























第 16 章 ” 密 钥 管理 








void rcu *rcudata; 
void *data; 
void *data2[2]; 

} payload; 

struct assoc_array keys; 


}; 


union { 





struct keyring index key index key; 
struct { 
struct key type *type; 
char *description; 
F 
}; 


unsigned long flags; 








i 


第 一 个 重要 的 数据 成 员 是 serial. 内 核 通过 此 序列 号 来 唯一 地 标识 一 个 key。 下面 儿 个 成 员 : 
user、uid、gid、perm、security， 和 访问 控制 相关 。user 指向 的 数据 类 型 key user 中 包含 一 些 和 

















] 户 配额 ( 

































































quota) 相关 的 数据 ， 像 用 户 拥 有 key 的 数量 ， 用 户 拥有 key 占用 的 总 内 存 之 类 。 因 



































为 key 是 | 









































用 户 态 进程 创建 ， 由 内 核 管理 ， 其 实体 存储 在 内 核 申 请 的 内 存 中 ， 所 以 密 钥 管理 需 

































































要 实施 配额 管理 。uid 和 gid 标识 key 的 属 主 和 数组 ，perm 是 key 的 访问 权限 ， 这 都 和 文件 类 




















似 。security 是 一 个 指针 , 被 LSM 使 用 , 指 问 的 内 容 由 具体 的 LSM 模块 定义 。 之 后 的 datalen 
和 payload 一 起 用 于 存储 密 钥 内 容 , datalen 标识 了 payload 的 长 度 。 至 于 datalen 怎样 和 payload 


配合 ，payload 中 的 data 和 data2 怎样 使 用 ， 不 同类 型 的 key 做 法 不 同 。 






































前 面 说 过 密 钥 有 对 称 密 钥 和 非 对 称 密 钥 两 大 类 ， 每 类 密 钥 又 有 很 多 种 。 密 钥 种 类 不 同 ， 
payload 中 数据 的 格式 和 长 度 也 不 同 。 所 以 key 数据 结构 中 包含 了 数据 成 员 type， 其 类 型 为 
key_type， 其 中 包含 若干 函数 指针 ， 用 于 处 理 payload. 



























































include/linux/key-type.h 


struct key type { 


const char *name; 

size t def datalen; 

unsigned def lookup type; 

int (*vet description) (const char *description); 

int (*preparse) (struct key preparsed payload *prep); 

void (*free preparse) (struct key preparsed payload *prep); 

int (*instantiate) (struct key *key, struct key preparsed payload *prep); 
int (*update) (struct key *key, struct key preparsed payload *prep); 
int (*match) (const struct key *key, const void *desc); 

void (*revoke) (struct key *key); 
void (*destroy) (struct key *key); 


void (*describe) (const struct key *key, struct seq file *p); 


( 
( 
( 
long (*read) (const struct key *key, char user *buffer, size t buflen); 
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request key actor t request key; 
struct list head link; /* link in types list */ 
struct lock class key lock class; /* key-»sem lock class */ 




































































下 一 个 重要 成 员 是 description， 它 是 一 个 字符 串 ， 用 于 用 户 态 进 程 查询 密 钥 。 用 户 态 先 用 字符 
串 description 从 内 核查 询 到 key 对 应 的 序列 号 serial， 以 后 就 直接 用 serial 来 对 key 进行 操作 。 
还 有 一 个 重要 成 员 flags。 它 包含 密 钥 的 状态 信息 ， 和 密 钥 的 生命 周期 有 关 。 


16.2.2. ”生命 周期 


密 钥 是 动态 创建 的 ， 它 有 生命 周期 ， 如 图 16-1 所 示 。 
在 数据 结构 中 用 flags 来 标识 密 钥 的 生命 周期 状态 。 
户 态 进程 首先 会 创建 密 钥 ， 内 核 响应 用 户 态 进程 的 
请 求 会 生成 一 个 密 钥 ， 分 配 内 存 。 密 钥 的 第 二 个 状态 是 
instantiated, 内 核 将 用 户 态 进程 提供 的 输入 填 入 密 钥 的 负载 
(payload) 之 中 。 这 时 的 密 钥 就 可 以 被 用 来 做 加 解密 使 用 
了 。 密 钥 的 “死亡 ”状态 有 三 个 ， 它 们 略 有 不 同 。revoke 
和 invalidate 都 是 由 用 户 态 进程 发 起 的 请 求 ， 内 核对 
invalidate 的 响应 是 立即 让 密 钥 失效 ， 收 回 密 钥 上 的 资源 ; 
内 核对 revoke 的 响应 也 是 让 密 钥 失效 并 收回 资源 , 只 是 在 此 之 前 先 调用 密 钥 所 属 的 类 型 (struct 
key type) 中 定义 的 一 个 函数 (revoke), dead 状态 不 是 由 用 户 态 进程 删除 密 钥 导致 的 ， 而 是 1 
于 一 种 类 型 (key_type) 的 密 钥 失 效 导 致 的 ， 一 般 造 成 这 种 状况 是 因为 相关 的 内 核 模 块 被 卸载 。 

密 钥 的 构造 由 用 户 态 进程 发 起 ， 密 钥 的 payload 数据 由 用 户 态 进程 提供 ， 或 者 由 用 户 态 进 
程 指令 内 核 生 成 。 当 内 核子 系统 要 用 到 某 个 密 钥 ， 而 这 个 密 钥 还 不 存在 怎么 办 ? 一 种 简单 的 做 
法 是 由 内 核 启动 一 个 用 户 态 进 程 ， 再 由 这 个 进程 来 填充 密 钥 的 payload。 在 发 起 新 进程 之 前 ， 内 
核 首先 分 配 一 个 密 钥 ， 将 密 钥 的 状态 设置 为 “user_construct”。 发 起 的 新 进程 负责 填充 密 钥 的 
payload。 这 时 ， 进 程 有 两 个 选择 ， 一 个 是 立刻 提供 payload 并 通知 内 核 将 密 钥 的 状态 置 为 
“instantiated”; 男 一 个 是 不 能 马上 提供 payload 数据 , 它 就 通知 内 核 将 密 钥 的 状态 置 为 “negative”， 
以 后 再 提供 数据 并 修改 状态 。 在 图 16-1 的 基础 上 增加 两 个 状态 “user_construct” 和 “negative” 


就 形成 了 图 16-2. 


图 16-2 密 钥 的 生命 周期 





















































































instantiated 









































































































































图 16-1 密 钥 的 基本 生命 周 其 
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下 面 看 一 下 代码 : 


security/keys/request key.c 








struct key *request key(struct key type *type, 
const char *description, 


const char *callout info) 


struct key *key; 
size t callout len = 0; 


int ret; 


if (callout info) 
callout len = strlen(callout info); 
key = request key and link(type, description, callout info, callout len, 
NULL, NULL, KEY ALLOC IN QUOTA); 











if (!IS ERR(key)) { 
ret = wait for key construction(key, false); 
if (ret < 0) { 
key put(key); 
return ERR PTR(ret); 








) 


return key; 




















request key.c 调用 了 request key and link: 


security/keys/request key.c 
struct key *request key and link(struct key type *type, 





const char *description, 
const void *callout info, 
size t callout len, 

void *aux, 

Struct key *dest keyring, 
unsigned long flags) 


struct keyring search context ctx = { 
.index key.type = type, 
.index key.description = description, 
.cred = current cred(), 
.match = type-»match, 
.match data = description, 
.flags = KEYRING SEARCH LOOKUP DIRECT, 











}; 
struct key *key; 
key ref t key ref; 


int ret; 
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key ref = search process keyrings(&ctx); 


if (!IS ERR(key ref)) ( 











) else if (PTR ERR(key ref) != -EAGAIN) { 
key = ERR CAST (key ref); 
) else { 


/* the search failed, but the keyrings were searchable, so we 
* should consult userspace if we can */ 

key = ERR PTR(-ENOKEY); 

if (!callout info) 














goto error; 


key = construct key and link(&ctx, callout info, callout len, 
aux, dest keyring, flags); 


return key; 








request key and link 会 尝试 查找 密 钥 ， 如 果 没 有 找到 ，request key and link 会 调用 
construct key and link: 














security/keys/request key.c 
static struct key *construct key and link(struct keyring search context *ctx, 
const char *callout info, 
size t callout len, 
void *aux, 
struct key *dest keyring, 
unsigned long flags) 


struct key user *user; 
struct key *key; 


int ret; 


construct get dest keyring(&dest keyring); 
ret = construct alloc key(ctx, dest keyring, flags, user, &key); 


if (ret == 0) ( 
ret = construct key(key, callout info, callout len, aux, dest keyring); 











) else if (ret -- 
ret = 0; 
) else { 


EINPROGRESS) { 


goto couldnt alloc key; 
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下 面 来 看 construct key: 


security/keys/request key.c 





static int construct key(struct key *key, const void *callout info, 
size t callout len, void *aux, 
struct key *dest keyring) 


struct key construction *cons; 
request key actor t actor; 
struct key *authkey; 

int ret; 





I5] 


cons = kmalloc(sizeof(*cons), GFP KERNEL); 

/* allocate an authorisation key */ 

authkey = request key auth new(key, callout info, callout len, 
dest keyring); 





if (IS ERR(authkey)) { 


) else { 
cons-»authkey - key get(authkey); 
cons-»5key = key get(key); 





/* make the call */ 
actor = call sbin request key; 
if (key-»5type-»request key) 








actor = key-^type-»request key; 
ret = actor(cons, "create", aux); 


return ret; 


























如 果 密 钥 类 型 中 没有 特殊 规定 ， 函 数 call sbin request key 就 会 被 调用 。call sbin request - 
key 的 定义 为 : 











security/keys/request key.c 
/* 
* Request userspace finish the construction of a key 
* — execute "/sbin/request-key «op»«key»«uid»«gid»«keyring»«keyring»«keyring»" 
uA 
static int call sbin request key(struct key construction *cons, 
const char *op, 





void *aux) 





const struct cred *cred - current cred(); 
key serial t prkey, sskey; 
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struct key *key = cons-»5key, *authkey = cons-»authkey, *keyring, *session; 


char *argv[9], *envp[3] 


y uid str[12], gid str[12]; 


char key str[12], keyring str[3][12]; 


char desc[20]; 
int ret, i; 


/* allocate a new sessi 
sprintf (desc, " req.$u" 





cred - get current cred 
keyring = keyring alloc 
KEY 
KEY 





put cred(cred); 


/* attach the auth key 


on keyring */ 
, key-»serial); 


0; 

(desc, cred-»5fsuid, cred-»5fsgid, cred, 
POS ALL | KEY USR VIEW | KEY USR READ, 
 ALLOC QUOTA OVERRUN, NULL); 








to the session keyring */ 
authkey); 





ret = key link(keyring, 
/* do it */ 
ret = call usermodehelp 





return ret; 


) 


r keys(argv[0], argv, envp, keyring, 
UMH WAIT PROC); 


























call sbin request key 函数 定义 比较 长 ， 上 面具 保留 了 核心 部 分 ， 主 要 功能 是 用 要 实例 化 的 











密 钥 的 序列 号 〈key->serial) 生成 一 个 


描述 字符 串 〈desc)， 用 这 个 描述 字符 串 生 成 一 个 钥 古 串 


















































(kering), 然后 将 authkey 链接 入 钥匙 串 。 最 后 用 钥匙 串 作 为 参数 调用 call usermodehelper keys. 
call usermodehelper keys 将 会 启动 一 个 用 户 态 进程 ， 这 个 用 户 态 进程 负责 实例 化 密 钥 。 





16.2.3 ”类 型 


内 核 引 入 了 数据 类 型 “key_type” 
一 下 主要 的 集中 密 钥 类 型 。 
1. 钥匙 环 (keyring) 


















































来 表示 密 钥 类 型 ， 其 中 有 若干 函数 指针 。 下 面 简 要 叙述 














顾名思义 ， 钥 匙 环 就 是 将 密 钥 串 看 





E 一 起 的 地 方 。 它 和 文件 系统 的 目录 有 些 类 似 ， 钥 匙 环 可 

















以 包含 若干 密 钥 ， 当 然 这 些 密 钥 也 可 以 是 另 一 个 钥匙 环 。 但 是 ， 和 目录 相 比 它 有 两 点 不 同 。 一 


是 寻找 一 个 密 钥 时 ， 需 要 配合 参数 typ 


如 一 个 类 型 为 “trusted” 的 密 钥 和 一 个 





























e， 也 就 是 说 ， 不 同类 型 的 密 钥 在 不 同 的 名 字 空 间 中 。 比 
类 型 为 “user” 的 密 钥 可 以 同名 《严格 地 说 ， 不 是 名 字 ， 








是 描述 description)， 不 会 引起 冲突 。 二 是 ， 一 个 密 钥 可 以 链接 到 多 个 钥匙 环 ， 这 和 目录 类 














似 。 不 同 的 是 ， 文 件 在 不 同 的 目录 中 可 以 有 不 同 的 名 字 ， 而 密 钥 在 不 同 的 钥 是 环 中 ， 其 名 字 / 








描述 总 是 一 样 的 。 








include/linux/key.h 
struct key ( 


union { 
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union { 


unsigned long 
void rcu 


void 
void 


} payload; 


value; 
*rcudata; 
*data; 
*data2[2]; 


struct assoc array keys; 


}; 
}; 





























keyring 使 用 类 型 为 assoc array 的 keys 成 员 ， 非 keyring 使 用 payload. 
密 钥 挂 在 钥匙 环 上 ， 钥 匙 环 可 以 再 挂 在 男 一 个 钥匙 环 上 。 似 乎 完美 了 了。 但 是 用 户 态 进程 要 

















找 一 个 钥匙 ， 该 从 哪 一 个 钥匙 环 





























始 昵 ? 还 拿 文件 系统 类 比 ， 文 件 系统 有 一 个 根 目 录 “/” W 




















目录 是 文件 查找 的 起 点 。 钥 是 环 也 类 似 ， 只 不 过 比 文件 系统 复杂 。 钥 匙 环 有 若干 个 特殊 的 ID, 











RHA REAR, IE 16-1. 

















表 16-1 特殊 的 keyring 
























































ID E X 
-1 线程 keyring 

-2 进程 keyring 

-3 会 话 keyring 

-4 用 户 ID 对 应 的 keyring 

-5 用 户 会 话 keyring 

-6 组 ID 对 应 的 keyring 

-7 操作 中 认证 密 钥 Cauth key) 的 keyring 
-8 的 keyring 





















































每 个 线程 有 一 个 自己 的 钥匙 环 ， 每 个 进程 有 一 个 自己 的 钥 古 环 。 不 太 好 理解 的 是 会 话 





《session)。 会 话 概念 的 引 














入 和 登录 dogi) 过 程 有 关 ， 用 户 登 录 系 统 ， 就 是 启动 了 一 次 会 话 ， 























这 次 登录 的 进程 ， 及 其 后 续 子 孙 进 程 共享 同一 个 会 话 id。 现 在 通过 字符 终端 〈tty) 登录 Linux 














还 是 这 样 的 情况 。 简 言 之 ， 























2. user 


个 会 话 就 是 一 组 进程 ， 它 们 共享 一 些 资源 ， 比 如 会 话 钥匙 环 。 用 
P ID 对 应 的 钥匙 环 和 组 ID 对 应 的 钥匙 环 ， 脱 离 进 程 而 存在 。 用 户 会 话 钥匙 环 主要 用 在 登录 程 
序 ， 用 户 登 录 系统 ， 输 入 用 户 名 和 口令 ， 登 录 程序 启动 新 进程 (一 般 是 一 个 shell)， 同 时 启动 
一 个 新 会 话 ， 这 个 新 进程 的 会 话 钥匙 环 就 先 设置 为 此 次 登录 的 用 户 的 用 户 会 话 钥匙 环 。 剩 下 两 
个 钥匙 环 和 request key 操作 相关 ， 后 面 再 介绍 。 




















user 类 型 的 密 钥 由 有 


3. logon 





logon 类 型 和 user 类 型 





上 户 态 进程 创建 











































































































并 且 一 般 是 用 户 态 进 程 使 用 此 种 类 型 密 钥 。 








很 相似 , 主要 的 区 别 在 于 进程 可 以 写 入 logon 类 型 密 钥 的 负载 , 但 是 























不 能 读 出 logon 类 型 密 钥 的 负载 。logon 类 型 密 钥 的 负载 存储 的 是 用 户 名 和 口令 。 内 核 中 的 一 些 


子 系统 ， 比 如 cifs， 会 使 


4. asymmetric 



































这 种 类 型 对 应 非 对 称 密 钥 ， 非 对 称 密 铀 有 两 个 密 钥 : 公 钥 和 私 钥 。 公 钥 存 储 在 payload 成 


员 中 ， 私 钥 存储 在 type_data 中 。 
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include/linux/key.h 


struct key { 


/* type specific data 


* - this is used by the keyring type to index the name 


xy 


union { 


struct list_head 
unsigned long 


void 
int 


— 


type data; 


/* key data 
* - this is used to hold the data actually used in cryptography or 
B whatever 


*/ 
union { 
union { 


unsigned long 


void rcu 


void 
void 


} payload; 


links 


x[2]; 
*p[2]; 


reject error; 


value; 
*rcudata; 
*data; 
*gdata2[2]; 


struct assoc array keys; 


}; 
}; 


5. encrypted 














这 种 类 型 的 密 钥 之 所 以 命名 为 encrypted， 原 因 是 用 户 态 进程 只 能 读 到 加 密 后 的 密 钥 数据 ， 



























































因此 用 户 态 进程 是 无 法 使 用 这 种 密 钥 的 。 这 种 密 钥 是 由 内 核 中 的 程序 使 用 的 ， 如 ecryptfs 和 

















IMA。 用 来 加 密 encrypted 密 钥 数 据 的 密 钥 有 两 种 ， 一 种 是 前 面 提 到 的 user 类 型 的 密 铀 ， 另 一 





种 是 后 面 要 提 到 的 trusted 类 型 的 密 

回顾 一 下 ， 内 核 中 的 密 钥 ， 是 | 
计 和 初衷 就 是 不 允许 用 户 态 进程 接触 到 
种 密 钥 呢 ? 答案 是 ， 创 建 这 种 
该 指令 来 创建 密 钥 。 指 令 的 语法 是 : 


























外 











H 
JJ o 









































户 态 进程 动态 创建 的 。 这 里 ，encrypted 类 型 的 密 钥 的 设 
明文 存储 的 密 钥 数 据 ， 那 么 ， 用 户 态 进程 又 该 怎么 创建 这 




















h 密 钥 时 的 payload 是 一 个 字符 串 ， 其 中 包含 一 个 指令 ， 内 核 根据 


(1) "new [format] key-type:master-key-name keylen" 
创建 密 钥 ， 密 钥 的 长 度 是 “keylen”， 使 用 类 型 为 “key-type ”， 名 字 (description) 为 
“master-key-name ”的 密 钥 作为 此 次 创建 的 密 钥 的 加 密 密 钥 。 





format:= 'default 


key-type:= 





'trusted' 








| ecryptfs' 


'user' 


format 有 两 种 形式 : default 和 ecryptfs。 看 来 encrypted 类 型 的 密 钥 和 eeryptfs 有 很 强 的 联 
系 。 加 密 密 钥 的 类 型 可 以 是 trusted 或 者 user。 
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(2) "load hex blob" 

根据 hex blob 的 值 来 创建 密 钥 。hex_blob 是 一 个 hex 字符 串 ， 字 符 串 本 身 是 有 格式 的 ， 其 
中 包含 用 于 加 密 的 密 钥 的 类 型 和 名 字 、 哈 希 校 验 值 及 加 密 后 的 密 钥 数据 。 一 般 用 法 是 创建 一 个 
encrypted 密 钥 ， 将 其 内 容 读 出 导入 一 个 文件 ， 在 每 次 系统 启动 时 根据 文件 内 容 创建 密 钥 。 例 如 
下 面 这 个 在 12.2.5 节 中 列举 过 的 例子 : 


cat /etc/keys/kmk | keyctl padd user kmk Qu 
keyctl add encrypted evm-key "load ‘cat /etc/keys/evm-key^" Qu 













































































(3) "update key-type:master-key-name" 

改变 用 于 加 密 密 钥 的 密 钥 。 用 户 修改 密 钥 的 负载 (payload)， 负 载 字符 串 是 上 面 这 个 格式 
时 ，encrypted 类 型 的 密 钥 的 加 密 密 钥 就 会 被 更 改 。 

6. trusted 

这 种 类 型 的 密 钥 和 TPM 相关 。 由 TPM 硬件 生成 一 个 密 钥 ， 并 存储 在 TPM 硬件 中 。 同 
encrypted 类 型 ， 创 建 密 钥 时 的 payload 是 一 个 指令 字符 串 。 语 法 是 : 

(1) "new keylen [options]" 




































































(2) "load hex blob [perlock=pcrnum]" 
这 部 分 语法 和 encrypted 类 型 密 钥 类 似 。 


16.2.4 ”系统 调用 


密 钥 管 理子 系统 添加 了 三 个 系统 调用 。 
1. add key 






































key serial t add key(const char *type, const char *description, 





const void *payload, size t plen, 
key serial t keyring); 








创建 成 功 后 ， 新 密 钥 会 被 链接 入 参数 keyring 表示 的 钥匙 环 。 
2. keyctl 





long keyctl(int cmd, ...); 




















系统 调用 keyctl 的 参数 个 数 不 定 ， 第 二 个 参数 及 后 续 参 数 是 否 存在 ， 类 型 又 是 什么 ， 由 第 
一 个 参数 cmd 的 取 值 决定 。cmd 的 取 值 有 : 

(1) KEYCTL GET KEYRING ID 

系统 调用 keyctl 的 第 二 个 参数 是 钥匙 环 的 id。 传 入 特殊 的 钥匙 环 的 id(-1~~-8)， 此 次 系统 
调用 返回 实际 的 钥匙 环 的 序列 号 。 

(2) KEYCTL JOIN SESSION KEYRING 

系统 调用 keyctl 的 第 二 个 参数 是 一 个 指向 字符 串 的 指针 ， 字 符 串 表示 会 话 钥 匙 环 的 名 字 
(description)。 此 次 系统 调用 将 调用 进程 的 会 话 钥匙 环 设置 为 第 二 个 参数 所 指 的 钥匙 环 。 如果 第 
二 个 参数 是 空 指针 ， 就 创建 一 个 匿名 钥匙 环 作 为 进程 的 会 话 钥 匙 环 。 

(3) KEYCTL UPDATE 

系统 调用 keyctl 的 第 二 个 参数 是 密 钥 的 id， 第 三 个 参数 是 payload 字符 串 ， 第 四 个 参数 是 
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payload 字符 串 的 长 度 。 此 次 系统 调用 更 新 密 钥 的 payload. 

(4) KEYCTL REVOKE 

系统 调用 keyctl 的 第 二 个 参数 是 密 钥 的 id。 此 次 系统 调用 删除 一 个 密 钥 。 

(5) KEYCTL DESCRIBE 

系统 调用 keyct 的 第 二 个 参数 是 密 钥 的 id， 第 三 个 参数 是 一 个 缓冲 区 指针 ， 第 四 个 参数 是 
缓冲 区 长 度 。 此 次 系统 调用 以 “type;uid;gid;perm;description” 格 式 将 密 钥 信息 填 入 缓冲 区 。 

(6) KEYCTL_CLEAR 

系统 调用 keyctl 的 第 二 个 参数 是 钥匙 环 的 id。 此 次 系统 调用 将 钥匙 环 清空 。 

(7) KEYCTL LINK 

系统 调用 keyctl 的 第 二 个 参数 是 密 钥 的 id， 第 三 个 参数 是 钥匙 环 的 id。 此 次 系统 调用 将 密 
钥 链 接 入 钥匙 环 。 

(8) KEYCTL UNLINK 

系统 调用 keyctl 的 第 二 个 参数 是 密 钥 的 id， 第 三 个 参数 是 钥匙 环 的 id。 此 次 系统 调用 从 钥 
匙 环 中 清除 一 个 密 钥 的 链接 。 

(9) KEYCTL SEARCH 

系统 调用 keyctl 的 第 二 个 参数 是 搜索 起 始点 的 钥匙 环 的 id， 第 三 个 参数 是 表示 类 型 的 字符 串 ， 
第 四 个 参数 是 表示 名 字 〔 描 述 ) 的 字符 串 ， 第 五 个 参数 是 目的 钥匙 环 的 i4。 从 搜索 起 始点 钥匙 环 开 
始 搜索 指定 类 型 和 名 字 的 密 钥 ， 如 果 目 的 钥匙 环 的 id 不 是 0， 则 将 找到 的 密 钥 链 接 入 目的 钥匙 环 。 

(100 KEYCTL READ 

系统 调用 keyctl 的 第 二 个 参数 是 密 钥 的 id， 第 三 个 参数 为 缓冲 区 指针 ， 第 四 个 参数 是 缓冲 
区 长 度 。 将 密 钥 的 payload WA RIX 。 

(11) KEYCTL CHOWN 

系统 调用 keyctl 的 第 二 个 参数 是 密 钥 的 id， 第 三 个 参数 为 用 户 id， 第 四 个 参数 为 组 id。 改 
变 密 钥 的 属 主 和 属 组 。 如 果 用 户 id 或 组 id 为 -1， 表 示 相 应 的 id 不 变 。 

(122 KEYCTL SETPERM 

系统 调用 keyct 的 第 二 个 参数 是 密 钥 的 id， 第 三 个 参数 是 一 个 整数 ， 标 识 权限 。 改 变 密 铀 
的 存 取 权 限 。 

(13) KEYCTL INSTANTIATE 

系统 调用 keyctl 的 第 二 个 参数 是 密 钥 的 id， 第 三 个 参数 是 payload 指针 ， 第 四 个 参数 是 
payload 长 度 ， 第 五 个 参数 是 钥匙 环 的 id。 实 例 化 一 个 密 钥 。 

(14) KEYCTL INSTANTIATE IOV 

E] INSTANTIATE 类 似 ， 只 是 系统 调用 keyctl 的 第 三 个 输入 参数 的 类 型 是 iovec *， 第 四 个 
参数 是 iovec 的 个 数 .KEY INSTANTIATE 和 系统 调用 write 类 似 ,KEYCTL INSTANTIATE IOV 
和 系统 调用 writev 类 似 。 

(15) KEYCTL NEGATE 

系统 调用 keyctl 的 第 二 个 参数 是 密 钥 的 id， 第 三 个 参数 是 时 延 (timeout) 值 ， 第 四 个 参数 是 
钥匙 环 的 id。 在 时 延 内 用 户 态 进程 查询 这 个 密 钥 会 得 到 ENOKEY 的 错误 。 如 果 钥 匙 环 的 id 非 零 ， 
此 次 系统 调用 还 会 将 密 钥 链接 入 第 四 个 参数 指定 的 钥匙 环 。KEYCTL NEGATE 的 应 用 场景 是 ， 当 
进程 暂时 无 法 提供 密 钥 的 负载 数据 时 ， 进 程 可 以 将 密 钥 的 状态 通过 KEYCTL NEGATE 置 为 
“negative”， 并 给 出 时 延 。 如 果 超 出 时 延 密 钥 的 状态 没有 变化 ， 内 核 束 会 市 除 密 钥 。 
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(160 KEYCTL REJECT 

系统 调用 keyctl 的 第 二 个 参数 是 密 钥 的 id， 第 三 个 参数 是 timeout 值 ， 第 四 个 参数 是 错误 
码 ， 第 五 个 参数 是 钥匙 环 的 id。 同 NEGATE 类 似 ， 只 是 在 此 次 系统 调用 后 ， 进 程 查询 此 密 钥 会 
得 到 错误 码 所 标识 的 错误 。 

(17) KEYCTL SET TIMEOUT 

系统 调用 keyctl 的 第 二 个 参数 是 密 钥 的 id， 第 三 个 参数 是 timeout ffi. XX timeout 秒 后 ， 这 
个 密 钥 将 被 清除 。 

(18) KEYCTL INVALIDATE 

系统 调用 keyctl 的 第 二 个 参数 是 密 钥 的 id。 将 密 钥 置 为 invalidated 状态 ， 后 续 内 核 垃圾 回 
收 机 制 会 删除 密 钥 并 回收 其 资源 。 

(19) KEYCTL GET SECURITY 

系统 调用 keyctl 的 第 二 个 参数 是 密 钥 的 id， 第 三 个 参数 是 缓冲 区 指针 ， 第 四 个 参数 是 缓冲 
区 长 度 。 将 密 钥 的 安全 上 下 文 OS SELinux 来 说 就 是 五 元 组 ) 转换 为 字符 串 存 入 缓冲 区 。 

(20) KEYCTL SESSION TO PARENT 

无 后 续 参 数 。 用 当前 进程 的 会 话 钥匙 环 替 换 父 进程 的 会 话 钥匙 环 。 

(21) KEYCTL GET PERSISTENT 

系统 调用 keyctl 的 第 二 个 参数 是 用 户 这 ， 第 三 个 参数 是 钥匙 环 的 这。 找到 和 用 户 相关 的 一 个 钥 
是 环 ， 如 果 内 核 uid 是 1000， 此 钥匙 环 的 名 字 〈 描 述 ) 是 “ persistent.1000”， 把 它 链 接 入 参数 指定 
的 钥匙 环 中 。 

(22) KEYCTL SET REQKEY KEYRING 

系统 调用 keyctl 的 第 二 个 参数 是 一 个 表示 jit keyring 的 值 。 将 进程 的 jit keyring 改 为 指定 
的 新 值 并 读 出 原来 的 jit keyring 值 返 回 。jit keyring 的 数据 类 型 是 “unsigned char”， 它 的 取 值 
有 多 个 ， 下 面 列 出 三 个 : KEY REQKEY DEFL NO CHANGE, KEY REQKEY DEFL . 
THREAD KEYRING 和 KEY REQKEY DEFL PROCESS KEYRING. jit keyring 用 来 提供 另 
一 种 指定 钥匙 串 的 方式 。 当 下 面 要 讲述 的 系统 调用 request key 的 参数 keyring 为 空 时 内 核 使 用 
jit keyring 所 指定 的 钥匙 串 。 

(23) KEYCTL ASSUME AUTHORITY 

系统 调用 keyctl 的 第 二 个 参数 是 密 钥 的 id。 类 型 为 key_serial t. 将 进程 的 request key. auth 
改 为 参数 指定 的 key。 如 果 id 为 0， 就 清除 进程 的 request key auth. 

3. request key 






































































































































































































































































































































key serial t request key(const char *type, const char *description, 
const char *callout info, key serial t keyring); 











用 户 态 进程 通过 这 个 系统 调用 让 内 核查 询 一 个 密 钥 ， 并 将 其 链接 入 参数 指定 的 钥匙 环 。 如 
这 个 密 钥 已 经 存在 ， 则 这 个 系统 调用 的 功能 和 keyctl(KEYCTL SEARCH, ...... ) 几 乎 没有 区 
。 如 果 这 个 密 钥 不 存在 ， 在 这 个 系统 调用 中 内 核 还 要 负责 创建 密 钥 。 那 么 ， 密 钥 的 payload 
BE? 内 核 的 做 法 是 根据 参数 callout info 启动 一 个 用 户 态 进程 , 由 这 个 用 户 态 进程 来 具体 创 
并 实例 化 这 个 密 钥 。 实 际 中 的 问题 是 内 核 启动 的 这 个 进程 本 身 可 能 还 是 无 法 创建 密 钥 ， 它 又 
启动 别 的 进程 来 做 这 个 工作 ， 如 图 16-3 所 示 。 
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userspace request key — ,^ 
Fd 


helper 1 |---—- —-| helper 2 


# 


g 
kernel p 


图 16-3 request key 

在 这 种 重复 委托 的 情况 下 ， 有 两 个 东西 必须 以 某 种 方式 传递 : 一 个 是 密 钥 ， 这 个 密 钥 已 经 
在 内 核 中 创建 了 ， 需 要 用 户 态 进程 来 实例 化 ; 另 一 个 是 钥匙 环 ， 就 是 这 个 密 钥 在 成 功 实例 化 后 ， 
需要 被 链接 到 哪 一 个 钥匙 环 中 。 还 有 一 个 额外 的 数据 ， 就 是 进程 的 凭证 ，helper 1 或 者 helper 2 
或 者 helpern 进程 要 为 process 1 进程 实例 化 密 钥 , 这 些 helper 可 能 要 查找 process 1 的 一 些 和 密 
钥 相 关 的 数据 。 内 核 引 入 了 一 种 新 的 密 钥 类 型 key_type_request_key_auth。 这 种 类 型 的 密 钥 不 
是 用 来 加 密 数 据 的 , 而 是 用 来 在 进程 间 传 递 实例 化 一 个 密 钥 所 需 的 信息 。 在 内 核 创 建 进程 helper 
1 的 时 候 ， 先 创建 一 个 key type request key auth 类 型 的 密 钥 ， 链 接 入 helper 1 进程 的 会 话 钥匙 
环 。key type request key auth 类 型 的 密 钥 的 payload 的 子 成 员 data 本 是 “void* ”指针 ， 其 所 
指 的 实例 的 类 型 为 request key auth. 

























































































struct request key auth { 


struct key *target key; 
struct key *dest keyring; 
const struct cred *cred; 

void *callout info; 
size t callout len; 
pid t pid; 


}; 
前 面 说 的 三 个 信息 这 里 面 都 有 : target key. dest keyring、cred。helper 1 进程 启动 后 ， 就 
可 以 调用 keyctl(KEYCTL ASSUME AUTHORITY, ...... ) 将 这 个 key type request key auth 类 
型 的 密 钥 置 入 自己 的 进程 数据 结构 的 request key_auth。 内 核 在 做 密 钥 相 关 的 查找 时 ， 也 会 查找 
与 request key auth 中 cred 相关 的 密 钥 。 
16.2.5 ”访问 类 型 


文件 的 访问 类 型 有 三 个 : 读 、 写 、 执 行 。 密 钥 不 能 被 执行 ， 但 是 密 钥 的 访问 类 型 有 六 个 。 


























































































































(1) Read 

读 出 一 个 密 钥 的 payload; 读 出 一 个 钥匙 坏 下 所 有 链接 的 信息 。 

(2) Write 

写 入 一 个 密 钥 的 payload; 在 一 个 钥匙 环 中 添加 链接 或 者 删除 链接 。 
(3) View 

查看 一 个 密 钥 的 类 型 、 描 述 等 属性 。 

(4) Search 




















查找 一 个 钥 是 环 。 在 搜索 一 个 钥匙 环 时 只 会 递归 搜索 其 下 有 搜索 访问 权限 的 子 钥匙 环 。 
(5) Link 
允许 一 个 密 钥 或 钥匙 环 被 链接 入 一 个 钥匙 环 。 
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View 和 Set Attribute 对 应 于 对 文件 


(6) Set Attribute 
允许 修改 密 钥 的 uid、gid、 访 问 许可 信息 。 
拿 文 件 访问 做 类 比 , 可 以 看 到 密 钥 的 Read. Write. Search 对 应 文件 的 读 、 写 和 执行 (目录 )。 

















的 一 次 判断 ， 既 判断 对 钥匙 环 的 Write， 又 判断 对 密 钥 的 Link. 


16.3” 伪 文件 系统 
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内 核 密 铀 和 











里 在 proc 文件 系统 中 创建 了 两 个 








只 读 文 件 ，/proc/keys 和 /proc/key-users。 








属性 的 读 写 操作 。Link 是 在 钥匙 环 上 创建 密 钥 的 链接 时 额外 


有 趣 














的 是 ， 它 们 没有 被 创建 在 /proc/pid/ 目 录 下 ， 而 是 被 直接 创建 在 了 proc 文件 系统 的 根 目录 下 。 这 
就 造成 了 进程 根本 无 法 查看 到 别 的 进程 的 密 钥 。 
keys 文件 列 出 当前 进程 可 以 查看 〈view) 的 密 钥 ， 所 以 不 同 的 进程 读 出 的 内 容 会 不 同 。 列 


出 的 内 容 包括 序列 号 、 过 期 时 间 、 
key-users 列 出 密 钥 的 统计 信息 ， 包 括 uid. fH 
























































访问 允许 位 、uid、 
用 计数 、 密 钥 总 数量 和 实例 化 数量 、 密 钥 数 






































描述 等 。 


gid、 类 型 、 




























































































量 的 配额 (quota) 信息 、 密 钥 占 用 内 存 的 配额 信息 。 
16.4 总 结 

从 访问 控制 的 角度 看 ， 密 钥 是 一 种 客体 。 拿 典型 的 客体 一 一 文件 一 一 来 和 它 对 比 ， 更 利于 
理解 ， 见 表 16-2。 

表 16-2 文件 和 密 钥 
文 件 密 4H 
Be. den T RES Jk. RIFA ATE 
个 特殊 目录 一 一 根 目录 八 个 特殊 的 密 钥 环 
三 个 访问 权限 : 读 、 写 、 执 行 六 个 访问 权限 : 读 、 写 、 看 、 找 、 链 、 设 属性 





这 么 设计 的 目的 是 让 一 个 (helper) 进程 在 访问 密 钥 时 具备 和 另 一 个 进程 相同 的 许可 权限 ， 而 在 
访问 其 他 客体 时 不 具备 和 另 一 个 进程 相同 的 许可 权限 。 




















密 钥 管理 系统 还 有 

















个 不 易 














里 解 的 request_ key 机 制 , 内 核 创 建 一 个 











新 密 钥 的 数据 。 随 之 





16.5 参考 资料 


读者 可 参考 以 下 资料 : 


Documentation/security/keys.txt 









































和 i 来 的 又 涉及 一 个 专门 用 来 携 








带 访 





户 态 进程 来 填充 一 个 
问 权 限 的 request key auth 类 型 的 密 钥 。 
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对 文件 进行 加 密 的 一 个 原始 的 做 法 是 加 密 文件 内 容 ， 将 其 存储 为 新 文件 ， 并 删除 老 文 件 。 
以 后 在 需要 查看 文件 时 ， 解 密 文件 ， 在 需要 修改 时 ， 解 密 文 件 ， 修 改 内 容 ， 再 加 密 。 这 人 么 做 显 
然 是 烦 开 的 ， 而 且 很 容易 造成 明文 泄露 。 能 不 能 让 用 户 操作 明文 ， 让 内 核 存 取 密 文 呢 ? eCryptfs 
在 内 核 文件 系统 级 别 上 实现 了 这 一 需求 。 

eCryptfs (Enterprise Cryptographic Filesystem) 是 Linux 的 一 种 文件 系统 ， 从 Linux 内 核 版 
本 2.6.19 开始 进入 内 核 主线 。 它 又 被 称 为 是 一 种 堆 登 于 其 他 文件 系统 之 上 的 加 密 文件 系统 CA 
Stacked Cryptographic Filesystem )。 举 个 例子 : 
























































# mount -t ecryptfs /home/username/.secret /home/username/secret 





上 述 命令 将 一 个 eCryptfs 文件 系统 挂 载 到 /home/username/secret 下 。 此 目录 下 的 文件 存储 的 
是 解密 后 的 明文 ， 用 户 在 操作 此 目录 下 的 文件 时 丝毫 感受 不 到 加 密 的 存在 。 而 在 /home/ 
username/.secret 目录 下 的 文件 存储 的 是 相应 的 加 密 后 的 密 文 。 所 谓 “stacked” 就 是 指 eCryptfs 
不 能 单独 存在 ， 它 依赖 于 一 个 底层 (lower) 文件 系统 ， 比 如 ext3， 对 eCryptfs 文件 系统 的 读 写 
操作 最 终 由 底层 文件 系统 完成 ， 在 eCryptfs 文件 系统 中 实现 透明 的 、 用 户 看 不 到 的 加 密 和 解密 
操作 。 当 系统 关机 后 ， 存 储 介质 比如 磁盘 只 会 有 底层 文件 系统 ， 比 如 ext3， 没 有 
eCryptfs。 

加 密 需 要 密 钥 ， 那 么 ，eCryptfs 文件 系统 的 密 钥 在 哪里 呢 ? 


17.2 文件 格式 



















































































































































































套用 云 计 算 常 用 的 “Xxx as a Service”, eCryptfs 是 “Gnupg as a filesystem”。 加 密 文 件 的 密 
钥 信 息 或 者 存储 在 文件 的 头 部 ， 或 者 存储 在 文件 的 扩展 属性 “user.ecryptfs” 之 中 。 
用 于 加 密 /解密 eCryptfs 文件 系统 中 文件 的 密 钥 来 源 于 内 核 生 成 的 一 个 随机 数 。 这 个 密 钥 
并 没有 存储 在 eCryptfs 文件 系统 的 文件 头 或 文件 的 扩展 属性 之 中 。 那 么 存在 文件 头 或 扩展 属 
性 中 的 是 什么 呢 ? 存储 的 是 对 这 个 密 钥 的 一 个 加 密 后 的 结果 。 用 于 加 密 这 个 密 钥 的 密 钥 称 为 
FEKEK (File Encryption Key Encryption Key)。 在 打开 文件 时 ， 内 核 要 用 FEKEK 对 存储 于 文 
件 头 或 文件 扩展 属性 中 的 加 密 后 的 密 钥 信息 进行 解密 ， 将 解密 后 的 密 钥 保存 起 来 ， 供 文件 读 
写 操作 使 用 。 

下 面 看 一 下 eCryptfs 中 的 文件 格式 《假设 密 钥 存储 在 文件 头 部 )， 见 表 17-1. 
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表 17-1. eCryptfs 文件 格式 
































0 1 2 3 4 5 6 7 
000 文件 大 小 
010 eCryptfs 幻 数 标记 吕 
020 版 本 标记 文件 头 中 extent 单位 长 度 9 
030 文件 头 中 exten 数量 
040 
050 密 钥 和 加 密 算法 信息 
T 文件 内 容 








上 表 中 的 密 钥 和 加 密 算 法 信息 有 两 种 格式 : tag 3 packet 和 tag 1 packet， 均 来 自 rfc2440。 
下 面 分 别 讲解 。 

(1) tag 3 packet 

tag 3 packet 的 格式 见 表 17-2. 

















317-2 tag3 packet 格式 
































0 1 2 3 4 5 6 7 
000 Tag 3 ID KES 版 本 号 算法 编码 S2K 标记 Hash id 盐 
Hash iXX 
010 ik MES 
次 数 
020 
加 密 后 的 密 钥 














Tag 3 ID 是 0x8c。 版 本 号 是 4。 算 法 编码 的 相关 数据 结构 为 : 


fs/ecryptfs/crypto.c 
static struct ecryptfs cipher code str map elem 





ecryptfs cipher code str map[] = ( 
"aes",RFC2440 CIPHER AES 128 }, 
"blowfish", RFC2440 CIPHER BLOWFISH], 
"des3 ede", RFC2440 CIPHER DES3 EDE], 
"Cast5", RFC2440 CIPHER CAST 5), 
"twofish", RFC2440 CIPHER TWOFISH], 
"Cast6", RFC2440 CIPHER CAST 6), 
"aes", RFC2440 CIPHER AES 192), 
"aes", RFC2440 CIPHER AES 256) 












































}; 


几 个 相关 的 定义 是 : 








C AJ, (magic number) 的 头 4 个 字 节 是 m 1， 尾 4 个 字 节 是 m 2, m 14H m 2 满足 条 件 : m_1^0x3c81b7f5 — m 2. 

OQ 标记 用 到 了 4 个 bit， 分 别 标记 ENABLE_HMAC、ENCRYPTED、METADAIA IN XATTR、ENCRYPT FILENAMES. 
© 当 版 本 大 于 或 等 于 1 时 有 此 域 。 

O 当 版 本 大 于 或 等 于 1 时 有 此 域 。 

G 此 处 变 长 ，1~2B， 本 表 按 2B 计算 。 
































177 


Linux 内 核 安全 模块 深入 剖析 





include/linux/ecryptfs 


define RFC2440 CIPHER. 
define RFC2440 CIPHER 
define RFC2440 CIPHER 


.h 
DES3 EDE 0x02 











CAST 5 0x03 





. BLOWFISH 0x0 





define RFC2440 CIPHER 


define RFC2440 CIPHER. 


AES 128 0x07 


AES 192 0x08 




















define RFC2440 CIPHER 


























S2K 标记 固定 为 3。Hash ID 固定 为 1， 表 示 使 用 MD5 算法 。 
tag 3 packet 之 后 紧 跟 着 一 个 tag 11 packet， 见 表 17-3. tag 3 packet 包含 密 钥 信息 ， 








tag 11 packet 包含 密 钥 的 名 字 。 


define RFC2440 CIPHER . 


AES 256 0x09 


. TWOFISH 0x0a 
define RFC2440 CIPHER 


CAST 6 Ox0b 








4 





















































317-3 tag 11 packet 格式 
0 1 2 3 4 5 6 7 
000 Tag 11 ID KRO 格式 描述 符 文件 名 长 度 文件 名 
010 文件 名 期 
020 期 内 容 




















Tag 11 ID 为 0xed。 格 式 描述 符 
eCryptfs 的 加 解密 逻辑 忽略 , 它们 的 存在 是 | 

















提供 的 格式 中 包含 文件 名 和 日 期 。 
























































固定 为 0x62。 
于 eCryptfs 使 用 了 rfc2440 提供 的 格式 , 在 rfc2440 


文件 名 长 度 固定 为 8。 文 件 名 和 日 期 都 被 





























这 里 有 一 个 容易 混淆 的 地 方 ， 在 rfc2440 中 Tag 11 的 内 容 部 分 用 来 存储 签名 信息 。eCryptfs 








的 Tag 11 的 内 容 部 分 存储 的 不 是 签 
密 钥 的 密 钥 一 一 FEKEK。 















































名 ， 而 是 一 个 密 钥 的 名 字 (描述 )， 这 个 密 钥 就 是 用 于 加 密 




















Tag 3 和 Tag 11 一 起 用 来 描述 eCryptfs 使 用 口令 生成 FEKEK 的 情况 。 口 令 是 一 个 字符 串 ， 




















经 过 若干 次 喻 希 达 代 最 终生 成 一 个 定 长 的 密 钥 ， 它 
存储 为 表 17-2 中 的 “加 密 后 的 密 钥 ”而 Tag 11 中 的 内 容 是 密 钥 的 名 字 ( 描 述 ), 内 核 将 对 FEKEK 
再 额外 多 做 一 次 哈 希 返 代 的 结果 作为 密 钥 (FEKEK ) 的 名 字 。 





(2) Tag 1 packet 





























就 是 FEKEK。 用 FEKEK 加 密实 际 的 密 钥 ， 

















前 面 介绍 了 tag 3 _ packet， 下 面 介 绍 另 一 种 格式 tag 1 packet， 其 格式 见 表 17-4。 


表 17-4 tag 1 packet 包 格 式 


0 1 


2 3 


4 5 6 7 








000 Tag 1 ID KE 





密 钥 ID 











加 密 算 法 ID 加 密 后 密 钥 











O 此 处 变 长 ，1~2B， 本 表 按 2B 计算 。 
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Tag 1 ID 固定 为 0x01。 版 本 号 固定 为 3。 
在 表 17-1 中 的 “ 密 钥 和 加 密 算 法 信息 ”中 可 以 包含 多 个 单元 ， 每 个 单元 或 者 是 一 个 
tag 3_packet 加 一 个 tag 11 packet， 或 者 是 一 个 tag 1 packet. 


17.3 ERSA 























系统 调用 mount 的 作用 是 挂 载 文件 系统 ， 在 挂 载 eCryptfs 文件 系统 时 ， 会 用 到 一 些 专门 的 
参数 。 下 面 逐 一 介绍 。 几 是 需要 有 输入 字符 串 的 参数 ， 都 以 “=” 结 尾 。 
9 sig- 






































€ ecryptfs sig- 

这 两 个 参数 作用 相同 ， 都 需要 一 个 字符 串 作 为 输入 ， 这 个 字符 串 规 定 了 一 个 密 钥 的 名 字 
(description)。 内 核 会 先 在 user 类 型 的 密 钥 中 寻找 这 个 名 字 的 密 钥 ， 若 没有 ， 再 在 encrypted 类 
型 的 密 钥 中 寻找 这 个 名 字 的 密 钥 。 将 找到 的 密 钥 链 入 一 个 对 应 此 次 mount 的 密 钥 链 ， 用 于 后 续 
可 能 的 加 解密 密 钥 的 操作 。 

sig 按 字 面 理解 是 签名 。 实 际 上 却 是 指 密 钥 的 名 字 (description)。 
注意 ， 这 里 这 个 密 钥 并 不 是 真正 用 于 加 解密 文件 内 容 的 密 钥 。 用 于 加 解密 文件 内 容 的 密 铀 
是 内 核 生成 的 一 个 随机 数 ， 这 个 随机 数 当 然 不 能 存储 在 文件 或 文件 的 扩展 属性 之 中 。 这 里 的 
mount 参数 规定 了 一 个 密 钥 用 于 将 这 个 随机 数 加 密 ， 加 密 后 的 结果 随 文件 存储 。 

€ cipher- 
















































































































































































€ ecryptfs cipher- 

这 两 个 参数 作用 相同 ， 都 用 来 确定 一 个 加 密 解 密 算 法 。eCryptf 使 用 的 是 对 称 加 密 算法 ， 
即 加 密 和 解密 使 用 相同 的 密 钥 。 具 体 算法 是 以 下 儿 个 之 一 : aes. blowfish. des3 ede. cast5. 
twofish、 cast6。 






























































€ ecryptfs key_bytes= 

这 个 参数 确定 密 钥 长 度 。 有 些 加 密 算法 支持 不 同 长 度 的 密 钥 。 例 如 ，aes 密 铀 有 16B, 24B, 
32B 三 种 。 

€ ecryptfs passthrough 

这 个 参数 确定 是 否 允 许 eCryptfs 文件 系统 中 存在 没有 被 加 密 的 文件 。eCryptfs AIMER 
他 文件 系统 之 上 的 ， 在 其 他 文件 系统 的 目录 中 存储 的 是 加 密 后 的 文件 ， 自 eCryptfs 文件 系统 目 
录 中 看 到 解密 后 的 文件 内 容 。 如 果 在 其 他 文件 系统 中 存在 未 加 密 文 件 的 话 ， 在 这 个 mount 参数 
作用 下 ， 自 eCryptfs 中 读 此 文件 不 会 报错 ， 也 不 会 做 额外 的 解密 操作 ， 原 封 不 动 地 将 文件 内 容 
呈现 。 

€ ecryptfs xattr metadata 

所 谓 元 数据 (metadata) 就 是 eCryptfs 专 有 的 和 加 密 相 关 的 数据 。 有 了 这 个 参数 ， 在 系统 
调用 open 中 ， 内 核 会 先 试 着 从 文件 头 中 读 出 元 数据 ， 如 果 文 件 头 没有 ， 再 从 扩展 属性 中 读 出 元 
数据 。 

€ ecryptfs encrypted view 

此 参数 影响 文件 向 内 存 映 射 的 操作 ， 有 此 参数 ， 文 件 内 容 到 内 存 不 做 解密 操作 。 

€ ecryptfs fnek sig- 

eCryptfs 不 仅 能 对 文件 内 容 进 行 加 密 ， 还 能 对 文件 名 进行 加 密 。 如 果 将 目录 看 作 一 种 特殊 
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的 文件 ， 目 录 的 内 容 就 是 文件 名 和 文件 的 inode 号 。eCryptfs 并 不 会 对 目录 内 容 整体 进行 加 密 ， 
只 会 对 其 中 一 个 一 个 单独 的 “文件 名 ” 域 的 内 容 进 行 加 密 。 加 密 就 需要 密 钥 ， 这 个 参数 规定 用 
于 加 密 文 件 名 操作 的 密 钥 的 密 钥 。 
真正 用 于 加 解密 文件 名 操作 的 是 内 核 生 成 的 一 个 随机 数 ， 这 个 随机 数 作为 密 钥 是 不 能 直接 
存储 在 文件 元 数据 中 的 ， 要 对 此 密 钥 加 密 后 再 存储 ， 加 密 此 密 钥 的 密 钥 就 是 这 个 mount 参数 # 
AERA. 

€ ecryptfs fn cipher- 
] 于 文件 名 加 密 的 算法 。 
€ ecryptfs fn key bytes= 
] 于 文件 名 加 密 的 算法 所 需 的 密 钥 长 度 。 
€ ecryptfs mount auth tok only 
在 挂 载 操作 时 ， 参 数 “sig=”“ecryptfs sig-" "*ecryptfs fnek sig=” 可 以 出 现 多 次 ， 规 定 此 
次 挂 载 使 用 的 密 钥 。 解 密 文 件 的 一 般 做 法 是 : 首先 在 挂 载 时 给 出 的 密 钥 中 寻找 相应 的 密 钥 ， 如 
果 没 有 找到 ， 通 过 request key 操作 向 用 户 态 申请 协助 。 如 果 本 次 挂 载 有 这 个 参数 ， 就 不 会 使 用 
request key 操作 ， 如 果 文 件 所 需 的 密 钥 没有 在 挂 载 时 给 出 ， 则 直接 报错 。 

€ ecryptfs check dev ruid 

前 面 提 到 eCryptfs ZEE dE Hox ERA. EN, ASX, Æ mount eCryptfs 时 ， 会 
查 执 行 mount 操作 的 进程 的 uid 和 要 挂 载 的 (存储 加 密 后 文件 的 ) 目录 属 主 uid 是 否 相 同 ，; 
有 相同 才 允 许 挂 载 。 

€ ecryptfs unlink sigs 

这 个 参数 应 该 和 内 核 卸 载 eCryptfs 文件 系统 后 删除 相关 密 钥 有 关 。 但 在 内 核 代码 中 这 个 参 
数 已 经 不 对 应 任何 实际 有 效 的 逻辑 了 。 可 能 是 删除 相关 密 钥 已 经 成 为 印 载 eCryptfs 文件 系统 的 
必然 逻辑 了 。 


114 设备 文件 


eCryptfs 创建 了 一 个 设备 “ecryptfs”， 设 备 的 类 型 是 “misc”。 这 个 设备 作为 内 核 和 用 户 态 
进程 的 接口 。 引 入 它 是 为 了 解决 在 某 些 情况 下 内 核 不 掌握 密 钥 FEKEK, 也 就 无 法 将 文件 的 加 密 
后 的 密 钥 还 原 为 文件 的 密 钥 ， 因 此 内 核 需 要 请 求 用 户 态 进程 的 帮助 。 

设备 “ecryptfs” 的 使 用 方法 是 ， 在 用 户 态 有 一 个 名 为 ecryptfsd 的 守护 进程 监听 此 设备 ， 一 
旦 此 设备 有 数据 ，ecryptfsd 就 执行 读 操 作 。ecryptfsd 读 到 的 数据 实际 上 是 内 核 写 入 的 密 钥 
FEKEK 的 ID 和 文件 的 加 密 后 的 密 钥 。ecryptfsd 根据 这 些 数 据 执行 解密 操作 , 将 解密 后 的 数据 ， 
也 就 是 文件 的 密 钥 ， 写 入 设备 “ecryptfs”。 这样 ， 内 核 就 得 到 了 文件 的 密 钥 。 
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17.5 HASIR 











本 节 看 一 下 挂 载 操 作 及 其 对 应 的 用 户 态 代码 。 








root@lizhi-laptop:/home/zhi/tmp# mount -t ecryptfs ./ecrypt/ ./dcrypt/ 
Select key type to use for newly created files: 





1) tspi 
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2) passphrase 
Selection: 2 
Passphrase: 
Select cipher: 


1) aes: blocksize = 16; min keysize = 16; max keysize = 32 

2) blowfish: blocksize = 8; min keysize = 16; max keysize = 56 
3) des3 ede: blocksize = 8; min keysize = 24; max keysize = 24 
4) twofish: blocksize = 16; min keysize = 16; max keysize = 32 
5) cast6: blocksize = 16; min keysize = 16; max keysize = 32 
6) cast5: blocksize = 8; min keysize = 5; max keysize = 16 


Selection [aes]: 
Select key bytes: 





1) 16 
2) 32 
3) 24 


Selection [16]: 
Enable plaintext passthrough (y/n) [n]: 





Enable filename encryption (y/n) [n]: 
Attempting to mount with the following options: 
ecryptfs unlink sigs 
ecryptfs key bytes-16 
ecryptfs cipher-aes 
ecryptfs sig-47374857200bab607 
Mounted eCryptfs 


上 面 展示 了 挂 载 eCryptfs 的 命令 和 命令 的 输出 ， 下 面 看 一 下 挂 载 成 功 后 密 钥 的 情况 : 








It 





root8ülizhi-laptop:/home/zhi/tmpd cat /proc/keys 


0£933100 I--Q-- 2perm3b3f0000 0 0user 4737457200bab607: 740 
1615cb52 I--Q-- 2 perm 1f3f0000 0 -1 keyring uid.0: 2/4 
371ca85b I----- 1 perm 1f030000 0 0 keyring .dns resolver: empty 
3ef3f873 I--Q-- 1 perm 1f3f0000 0 -1 keyring uid ses.0: 1/4 


在 user 钥匙 环 上 的 描述 为 “4737d57200bab607” 的 密 钥 就 是 挂 载 eCryptfs 时 添加 的 。 下 面 
看 一 下 用 户 态 程序 调用 内 核 系统 调用 的 实际 参数 : 

































































root@lizhi-laptop:/home/zhi/tmp# cat /proc/mounts | grep ecryptfs 

/home/zhi/tmp/ecrypt /home/zhi/tmp/dcrypt ecryptfs rw,relatime, 
ecryptfs sig-4737457200bab607,ecryptfs cipher-aes,ecryptfs key bytes-16,ecry 
ptfs unlink sigs 0 0 

rootülizhi-laptop:/home/zhi/tmptd 


eCryptfs 的 mount 命令 在 user 钥匙 环 中 添加 了 一 个 密 钥 “4737d57200bab607” 然后 执行 系 
统 调用 mount, Æ mount 的 参数 中 包含 了 “ecryptfs_sig=4737d57200bab607”。 
] 户 在 执行 挂 载 命 令 时 输入 了 一 个 字符 串口 令 (passphrase )。eCryptfs 的 用 户 态 工 具 
(mount.ecryptfs) 会 将 这 个 口令 转化 为 一 个 密 钥 ， 加 入 内 核 。 这 个 工作 在 ecryptfs 的 用 户 态 软件 
ecryptfs-utils 的 src/libecryptfs/key management.c 中 完成 : 
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src/libecryptfs/key management.c 


int ecryptfs add passphrase key to keyring(char *auth tok sig, 
*passphrase, char *salt) 


{ 


int rc; 


char 





char fekek[ECRYPTFS MAX KEY BYTES]; 
struct ecryptfs auth tok *auth tok - NULL; 








rc = ecryptfs generate passphrase auth tok(&auth tok, auth tok sig, 


fekek, salt, passphrase); 
if (rc) ( 


Syslog(LOG ERR, "$s: Error attempting to generate the " 
"passphrase auth tok payload; rc = [$d]Nn", 
. FUNCTION , rc); 
goto out; 
} 
rc = ecryptfs add auth tok to keyring(auth tok, auth tok sig); 
if (rc < 0) { 

















Syslog(LOG ERR, "$s: Error adding auth tok with sig [$s] to " 
"the keyring; rc = [$d]Nn", FUNCTION , auth tok sig, 
rc); 
goto out; 
} 
out: 


if (auth tok) { 
memset(auth tok, 0, sizeof(auth tok)); 
free(auth tok); 

} 


return rc; 











ecryptfs add passphrase key to keyring 调用 了 ecryptfs generate passphrase auth tok， 用 来 
生成 密 钥 ， 然 后 调用 了 ecryptfs add auth tok to keyring 用 来 将 密 钥 加 入 “user” 钥 是 环 。 下 面 


分 别 看 生成 密 钥 的 函数 ecryptfs generate passphrase auth tok 和 加 入 密 钥 的 函数 ecryptfs add_ 
auth tok to keyring. 


(OD 生成 密 铀 
先 看 ecryptfs generate passphrase auth tok: 























src/libecryptfs/key management.c 
int ecryptfs generate passphrase auth tok(struct 
**auth tok, char *auth tok sig, char *fekek, 


{ 


int rc; 


ecryptfs auth tok 
char *salt, char *passphrase) 


*auth tok = NULL; 


rc = generate passphrase sig(auth tok sig, fekek, salt, passphrase); 
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的 作用 是 
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if (rc) ( 
Syslog(LOG ERR, "Error generating passphrase signature; " 
"rc = [$d]Wn", rc); 
rc = (roc « 0) ? rc EC vb 


goto out; 


) 





*auth tok = malloc(sizeof(struct ecryptfs auth tok)); 

if (!*auth tok) ( 
Syslog(LOG ERR, "Unable to allocate memory for auth tokWMn"); 
rc = -ENOMEM; 














goto out; 


) 











rc = generate payload(*auth tok, auth tok sig, salt, fekek); 
if (rc) ( 
Syslog(LOG ERR, "Error generating payload for auth tok key; " 
"rc = [$d]Mn", rc); 
rc (EE « 0) ? rc fo cL 


goto out; 


) 


out: 


return rc; 




















j 了 函数 generate passphrase sig 来 生成 fekek 
名 ， 实 际 上 是 密 钥 的 名 字 / 描 述 )。generate_passphrase_sig 
将 一 段 口 令 字 符 串 〈passphrase) 转化 为 密 钥 信 息 


Do 


ecryptfs generate passphrase auth tok 调 
意思 是 签 


Ah JD AE AE 








int generate passphrase sig(char *passphrase sig, char *fekek, 


char *salt, char *passphrase) 


char salt and passphrase[ECRYPTFS MAX PASSPHRASE 





T 


_BYT 















































+ ECRYPTFS SALT SIZE]; 
int passphrase size; 
int alg = SEC OID SHA512; 
int dig len = SHA512 DIGEST LENGTH; 
char buf[SHA512 DIGEST LENGTH]; 
int hash iterations = ECRYPTFS DEFAULT NUM HASH ITERATIONS; 
int rc = 0; 


passphrase siz 
if 





= strlen(passphrase); 
ECRYPTFS MAX PASSPHRASI 
NULL; 


(passphrase size > 











{ 





E BYTES) 

passphrase sig - 

syslog(LOG ERR, 
passp 


EINVAL; 


"Passphrase too large ($d bytes) Wn", 





hrase size); 





return - 
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memcpy(salt and passphrase, salt, ECRYPTFS SALT SIZE); 
memcpy((salt and passphrase + ECRYPTFS SALT SIZE), passphrase, 











passphrase size); 
if ((rc = do hash(salt and passphrase, 
(ECRYPTFS SALT SIZE + passphrase size), buf, alg))) { 

return rc; 
} 
hash iterations--; 
while (hash iterations--) ( 

if ((rc = do hash(buf, dig len, buf, alg))) { 


return rc; 


} 

memcpy(fekek, buf, ECRYPTFS MAX KEY BYTES) 

if ((rc = do hash(buf, dig len, buf, alg)) 
return ro; 

} 

to hex(passphrase sig, buf, ECRYPTFS SIG SIZE); 


return 0; 











) (t 








对 口令 做 若干 次 哈 希 运 算 就 得 到 了 fekek, XJ fekek 再 多 做 一 次 哈 希 就 得 到 了 sig. 
(2) WAH 
src/libecryptfs/ key management.c 


int ecryptfs add auth tok to keyring(struct ecryptfs auth tok *auth tok, 
char *auth tok sig) 














int. re; 

rc = (int)keyctl search(KEY SPEC USER KEYRING, "user", auth tok sig, 0); 

if (rc !- -1) ( /* we already have this key in keyring; we're done */ 
rc = 1; 


goto ont; 
) else if ((rc == -1) && (errno != ENOKEY)) { 


int errnum - errno; 

















Syslog(LOG ERR, "keyctl search failed: $m errno-[$d]Mn", 
errnum); 

rc = (errnum < 0) ? errnum : errnum * -1; 

goto out; 


} 
rc = add key("user", auth tok sig, (void *)auth tok, 
sizeof(struct ecryptfs auth tok), KEY SPEC USER KEYRING); 




















if (rc == -1) { 
rc = -errno; 
Syslog (LOG ERR, "Error adding key with sig [$s]; rc = [$d] " 











"N"ÉmWN"NAn", auth tok sig, rc); 
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if (rc == -EDQUOT) 
syslog(LOG WARNING, "Error adding key to keyring - keyring is full\n"); 








goto out; 


outs 
return rc; 


) 


此 函数 的 核心 就 是 调用 库 函 数 add_key， 将 密 钥 加 入 内 核 。 














17.6 总 结 














eCryptfs 是 堆 状 于 其 他 文件 系统 之 上 的 文件 系统 。 它 的 实现 和 使 用 是 目录 级 的 ， 原 有 文件 
系统 的 目录 下 存储 的 是 加 密 后 的 文件 ， 在 eCryptfs 文件 系统 的 目录 中 存储 的 是 解密 后 的 文件 。 
其 体 到 每 个 文件 ，eCryptfs 将 加 密 所 用 的 数据 存储 在 文件 的 头 部 或 文件 的 扩展 属性 之 中 ， 这 为 
文件 的 备份 ， 尤 其 是 增 量 备 份 ， 带 来 了 好 处 。 因 为 如 果 像 EncFS 那样 用 专门 的 文件 存储 加 密 元 
数据 ， 每 次 备份 都 必须 维护 存储 了 密 钥 数 据 的 专门 文件 。 




















mm 












































171.7 参考 资料 


读者 可 参考 以 下 资料 : 
Mike Austin Halcrow. eCryptfs: A Stacked Cryptographic Filesystem, 2007 

Michael Austin Halcrow. eCryptfs: An Enterprise-class Cryptographic Filesystem for Linux 
https://www.ietf.org/rfc/rfc2440.txt 
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18.4 简介 








dm-crypt 也 是 Linux 内 核子 系统 Device Mapper 的 一 个 子 模块 。 关 于 Device Mapper, W2 
考 13.1 节 中 的 描述 。dm-crypt 是 一 个 透明 的 块 设备 加 密 方 案 。 所 谓 “透明” 是 指 读 写 dm-crypt 
块 设备 和 读 写 普通 块 设备 没有 区 别 ， 用 户 感知 不 到 加 解密 的 存在 。 但 是 实际 上 在 dm-crypt 块 设 
备 上 的 数据 是 加 密 存 储 的 ， 写 操作 时 ， 内 核 dm-erypt 子 系 统 会 将 用 户 数 据 加 密 后 存储 ; 读 操 作 
时 ， 先 读 出 块 设备 上 的 数据 ， 再 做 解密 操作 ， 然 后 传输 给 用 户 态 进 程 。 

既然 读 写 操作 没有 什么 不 同 ， 那 么 一 定 有 操作 会 异 于 普通 块 设备 操作 。dm-crypt 设备 的 建 
立 需要 一 些 特殊 的 参数 。 下 面 看 一 个 例子 : 


























































































































dmsetup create mycrypt dev --table "0 417792 crypt aes-xts-plain64 e8cfa3db 
fe373b536be43c 5637387786c01be00ba5f730aacb039e86£3eb72£3 0 /dev/sdb 0" 


























命令 的 含义 是 创建 一 个 名 为 “mycrypt dev" IJ Device Mapper 块 设备 ， 设 备 共有 417792 
AAK, 自 0 号 扇 区 到 417791 号 扇 区 映射 至 设备 /devsdb I] O 57 Ja DX $8] 417791 ^ li [€ 。 在 /dev/sdb 
中 创建 crypt 类 型 的 Device Mapper 的 Target 设备 ， 加 密 算法 为 “aes”， 加 密 模式 为 “xts”， 初 
始 化 向 量 即 iv Cinitialization vector?) 模式 为 “plain64”， 密 钥 为 “e8cfa3dbfe373b536be43c 
5637387786c01be00ba5f730aacb039e86f3eb72f3” iv 偏 移 为 0。 如 图 18-1 所 示 。 























0417792 crypt aes-xts-plain64 e8cfa3dbfe373b536be43c5637387786c01be00ba5f730aacb039e86f3eb72f3 0 /dev/sdb 0 





offset 
device 
T cipher 256 bit key IV offset 











图 18-1. dm-crypt 参数 举例 
18.2 架构 


18.2.1 ”两 个 队列 (queue ) 


在 dm-crypt 的 一 个 关键 数据 结构 crypt_config 中 含有 类 型 为 “struct workqueue struct 的 两 个 
队列 : io queue 和 crypt _ queue。 一 个 负责 从 实际 承载 数据 的 块 设备 中 读 写 数据 ， 一 个 负责 对 数 
据 加 解密 。 在 13.3.2 节 中 讲 到 块 设 备 接口 函数 的 generic make request 最 终 会 调用 Device Mapper 
的 Target 设备 的 map 函数 , 由 map 函数 实现 对 块 设备 的 读 写 操作 。 下面 看 一 下 dm-crypt 的 map 
函数 实现 : 


















































static int crypt map(struct dm target *ti, struct bio *bio) 


{ 
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struct dm crypt io *io; 
struct crypt config *cc = ti-»private; 


io-crypt io alloc(cc, bio, dm target offset(ti,bio-»bi iter.bi sector)); 


if (bio data dir(io-»base bio) == READ) { 
if (kcryptd io read(io, GFP NOWAIT)) 
kcryptd queue io(io); 





) else 
kcryptd queue crypt(io); 


return DM MAPIO SUBMITTED; 
} 


下 面 分 别 看 一 下 读 操作 和 写 操作 。 

1. 读 操 作 

读 操 作 首 先 调 用 了 kcryptd_io_read。 该 函数 的 工作 就 是 从 实际 承载 数据 的 块 设备 中 读 取 数 
据 。 注 意 ， 读 出 的 数据 是 加 密 后 的 数据 。 






































Static int kcryptd io read(struct dm crypt io *io, gfp t gfp) 
( 

struct crypt config *cc = io-»cc; 

struct bio *base bio = io-»base bio; 

struct bio *clone; 


/* 
* The block layer might modify the bvec array, so always 
* copy the required bvecs because we need the original 





* one in order to decrypt the whole bio data *afterwards*. 
E 

clone = bio clone bioset(base bio, gfp, cc->bs); 

if (!clone) 


return 1; 


crypt inc pending(io); 


clone init(io, clone); 





clone-»bi iter.bi sector = cc-»start + io-»sector; 


generic make request (clone); 
return 0; 


) 


读 出 数据 后 就 需要 解密 了 。 一 般 情 况 下 ，kcryptd io read 返回 0， 所 以 在 函数 crypt map 中 
不 会 执行 函数 kcryptd_queue io。 有 些 奇怪 , 在 哪里 执行 解密 操作 呢 ? 看 一 下 容易 让 人 忽略 的 函 
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数 clone init: 


Static void clone init(struct dm crypt io *io, struct bio *clone) 


{ 


struct crypt config *cc = io-»cc; 


= io; 

- crypt endio; 

= cc-»dev-»bdev; 
io-»base bio-»bi rw; 


clone-»bi private 
clone-»bi end io 
clone-»bi bdev 
clone-»bi rw 








关键 之 处 是 这 个 函数 把 函数 指针 bi end io 改 成 了 crypt endio。 看 一 下 这 个 crypt endio: 


int error) 





Static void crypt endio(struct bio *clone, 
( 


if (rw == WRITE) 


buffer pages(cc, clone); 





crypt fr 


if (rw == READ && lerror) { 


kcryptd queue crypt(io); 





return; 














] kcryptd queue crypt, kcryptd queue crypt 























在 读 操作 且 没 有 错误 的 情况 下 ，crypt_endio 调 
函数 将 io 置 入 crypt_config 实例 的 crypt_queue， 即 执行 加 解密 的 队列 。 














2. 写 操 作 
在 写 操 作 的 情况 下 ，crypt_map 会 调用 函数 kcryptd_queue_crypt。 











static void kcryptd crypt (struct work struct *work) 


{ 


struct dm crypt io, work); 


struct dm crypt io *io = container of (work, 


== READ) 





if (bio data dir(io-»base bio) 
kcryptd crypt read convert(io); 


else 
kcryptd crypt write convert(io); 


static void kcryptd queue crypt(struct dm crypt io *io) 


( 
= io-»cc; 


struct crypt config *cc 


kcryptd crypt); 


INIT WORK(&io-»work, 
&io-»work); 


queue work(cc-»crypt queue, 
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) 























kcryptd crypt write convert 函数 实现 比较 长 ， 这 里 不 展开 了 。 它 主要 做 两 件 事 ， 一 是 调 上 





























crypt_convert 实现 加 密 操作 , 二 是 调用 kcryptd_crypt_ write io submit 实现 将 io 写 入 实际 存储 设备 。 


1822 ”五 个 参数 








start. 
1. cipher 




















在 dm-crypt 设备 的 构造 函数 crypt_ctr 中 ， 需 要 5 个 参数 : cipher, key. iv offset, dev path, 


cipher 字面 意思 是 密码 。 这 里 实际 上 是 用 于 规定 加 密 算 法 相关 的 三 个 参数 : 算法 、 模 式 和 


初始 化 向 量 。 格 式 为 : 





alg[:keycount]-mode-iv:ivopts 








三 个 子 参数 之 间 用 “-” 分 隔 ， 子 参数 中 若 还 有 子 项 ， 则 用 “:” 分 隔 。 
COD 算法 Calg) 

这 个 子 参数 规定 一 个 加 密 算法 ， 比 如 aes. 

(2) 模式 Cmode) 



































Pd 






































的 模式 : ECB (Electronic Codebook) 和 CBC (Cipher Block Chaining) 








在 块 加 密 (Block Cipher) 运算 中 ， 一 段 固定 大 小 的 比特 称 为 块 ， 如 何 重 复 使 用 针对 块 的 加 
密 算法 来 对 所 有 数据 进行 加 密 运 算 ， 就 是 模式 ?。 加 密 模 式 有 很 多 种 ， 下 面 简要 叙 


述 两 种 简单 





ECB (Electronic Codebook) 是 最 简单 的 一 种 加 密 模 式 。 它 就 是 将 数据 分 割 为 块 ， 然后 对 块 





进行 分 别 加 密 ， 如 图 18-2 所 示 。 





Plaintext Plaintext Plaintext 
Cm 


Key block cipher block cipher block cipher 
encryption encryption encryption 








Ciphertext Ciphertext Ciphertext 


图 18-2 ECB 加密 模式 





ECB 解密 模式 如 图 18-3 所 示 。 


Ciphertext Ciphertext Ciphertext 


block cipher block cipher block cipher 
: Key 一 = Key —— : 
encryption encryption encryption 


mmm 


Plaintext Plaintext Plaintext 


图 18-3 ECB 解密 模式 























© 参考 https:Wen.wikipedia.org/wiki/Block cipher mode of operation. 
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ECB 是 最 简单 的 一 种 模式 ， 它 的 缺点 是 不 能 很 好 地 隐藏 数据 模式 。 在 有 些 场景 下 ， 它 根本 
提供 不 了 任何 私密 性 ， 比 如 加 密 bitmap 格式 的 图 像 。 如 图 18-4、18-5 所 示 。 


^H 


图 18-4 ECB 加 密 处 理 前 图 18-5 ECB 加 密 处 










































































CBC (Cipher Block Chaining) 是 由 IBM 公司 于 1976 年 发 明 的 一 种 加 密 模式 。 在 CBC 模 
式 中 ， 每 一 块 在 加 密 前 要 先 和 前 一 块 加 密 后 的 密 文 做 一 个 KOR 运算 。 这 样 ， 每 一 块 的 加 密 后 
的 密 文 就 不 仅 和 这 一 块 的 明文 数据 相关 ， 还 和 此 块 之 前 的 所 有 明文 数据 相关 。 对 于 第 一 块 数据 
的 加 密 ， 第 一 块 数据 首先 和 一 个 叫做 初始 化 向 量 的 块 先 做 KOR 运算 。 需 要 注意 的 是 加 密 和 解 
密 的 次 序 是 相反 的 ， 加 密 从 第 一 块 开始 处 理 ， 解 密 从 最 后 一 块 开始 处 理 。CBC 加 密 、 解 密 模式 
分 别 如 图 18-6、18-7 所 示 。 
























































Plaintext Plaintext Plaintext 








block cipher 
encryption 





block cipher 
encryption 


block cipher 
encryption 






LLITTITITITITI 
Ciphertext Ciphertext Ciphertext 





图 18-6 CBC 加密 模式 


Ciphertext Ciphertext Ciphertext 


block cipher block cipher block cipher 


encryption encryption encryption 





[T] 
Plaintext Plaintext Plaintext 





图 18-7 CBC 解密 模式 
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Linux 内 核 提供 一 个 proc 文件 /proc/crypto， 列 出 所 有 当前 内 核 支持 的 加 密 算法 信息 。 例 如 : 











zhi@ubuntu-desktop:~$ cat /proc/crypto 


name 
driver 
module 
priority 
refcnt 
selftest 
type 

async 
blocksize 
min keysize 
max keysize 
ivsize 


geniv 


: cbc (aes) 

: cbc-aes-aesni 
: aesni intel 

: 400 

zc 

: passed 

: ablkcipher 

: yes 

£456 


二 16 
i o2 


: 16 
: «default» 

















每 一 条 记录 的 名 字 是 模式 和 算法 名 的 拼接 ， 例 如 上 面 列 出 的 “cbc(aes)”， 就 表示 使 用 CBC 








模式 的 aes 算法 。 








(3) 初始 化 向 量 (iv) 





从 前 面 的 模式 介 
WIE, dm-crypt 总 是 会 构建 一 个 初始 化 向 量 ， 用 以 加 强加 密 的 效果 。 这 个 子 参数 有 7 种 


取 值 : 
1) null 









































可 知 ，CBC 一 定 需 要 一 个 初始 化 向 量 ，EBC 并 不 一 定 需要 。 虽 然 


















































初始 化 向 量 总 是 全 0。 


H 


2) plain 

















初始 化 向 量 的 头 部 32bit 来自 一 个 扇 区 号 ， 初 始 化 向 量 的 其 余 bit 为 0。 


3) plain64 














n: 




















初始 化 向 量 的 头 部 64bit 来 自 一 个 扇 区 号 ， 初 始 化 向 量 的 其 余 bit 为 0， 初始 化 向 量 的 长 度 


H 



































和 算法 有 关 。 这 里 用 到 的 扇 区 号 和 实际 要 加 解密 的 扇 区 的 扇 区 号 有 关 ， 但 不 一 定 相 等 。 取 值 为 
实际 的 扇 区 号 加 上 后 面 要 提 到 的 iv_offset。 




















4) benbi 



































这 种 模式 和 plain64 类 似 ， 有 两 点 不 同 。 首 先 ， 它 前 面 填充 0， 最 后 放 一 个 和 扇 区 号 相关 的 
数 ， 其 次 ， 这 个 数 的 产生 涉及 二 进 制 移 位 操作 。 


5) essiv 

































































前 面 的 几 种 生成 初始 化 向 量 的 方式 有 一 个 共同 的 问题 ， 初 始 化 向 量 是 可 预测 的 ， 基 于 这 点 
就 可 以 展开 “Watermarking attack” 呈 。 为 了 进一步 提高 安全 性 ， 就 要 让 初始 化 向 量 不 可 预测 。 
essiv 就 是 一 种 不 可 预测 地 生成 初始 化 向 量 的 方式 。 

essiv 的 全 称 是 Encrypted Salt Sector Initialization Vector。 从 代码 实现 上 看 ， 它 是 在 plain64 







































































的 基础 上 对 初始 化 向 量 再 进行 加 密 ， 加 密 的 算法 就 是 前 面 的 算法 子 参数 所 规定 的 算法 ， 加 密 的 











© Jil https://en.wikipedia.org/wiki/Watermarking attack. 
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密 钥 是 后 面 提供 的 key 参数 的 哈 希 值 。 有 哈 希 值 就 需要 有 哈 希 算法 ， 哈 希 算法 通过 初始 化 向 量 
的 可 选 参数 提供 《〈 对 于 essiv， 可 选 参数 必须 有 ， 而 且 必 须 是 一 个 哈 希 算法 的 名 字 )。 








回忆 一 下 ，cipher 参数 的 格式 是 : 


alg[:keycount]-mode-iv:ivopts 


举 个 essiv 的 例子 : 


aes-cbc-essiv:sha256 


初始 化 向 量 的 生成 过 程 是 这 样 
始 化 向 量 进行 加 密 ， 加 密 算法 为 aes， 加 














6) Imk 





前 面 的 初始 化 向 量 的 生成 方法 ， 除 了 null， 都 是 基于 局 区 号 的 。lmk 又 进 了 一 步 ， 它 既 基 























于 扇 区 号 ， 又 基于 存储 内 容 。 


PR 


个 


定 





数 的 实现 。 
7) tcw 


tew 和 Imk 类 似 ， 过 程 比 lmk 多 了 


2. key 














xl 





























算法 有 些 复杂 ， 读 者 如 果 感 兴 

















个 子 步骤 


: 首先 采用 plain64 模式 生成 一 个 初始 化 向 量 ， 
密 密 钥 是 对 key 参数 进行 sha256 算法 的 哈 希 计算 的 结果 。 


趣 可 以 碍 





whitening。 


这 个 参数 是 一 个 HEX 编码 的 字符 串 ，18.1 节 中 的 例子 给 出 的 是 : 


然后 对 这 个 初 























看 内 核 crypt iv lmk one 





e8cfa3dqbfe373p536pe43c5637387786c01lpe00pa5f730aacb039e86f3eb72f3 


注意 这 个 字符 串 不 一 定 





口 有 


^Z€S TJ 


























iv offset 有 关 。 


这 


hi 


是 


“8 





3. iv offset 





[1 


ZN 





BA). ChE 
额外 密 钥 ，tcw 格式 的 iv 需要 两 个 额外 密 铀 。 其 次 























回忆 一 下 ，cipher 参数 的 格式 是 : 


alg[:keycount]-mode-iv:ivopts 








其 中 的 keycount 规定 J 
个 keycount 必须 是 2 
iv_offset 有 两 个 作用 


















































区 号 的 运算 ; 男 











第 5 个 密 钥 (从 0 
4. dev_path 


























过 程 是 : (10+3)%8=5。 


这 个 参数 规定 了 一 个 “底层 ”实际 存储 数据 的 块 设备 ， 











:16”， 也 可 以 用 
5. 





start 





设备 文件 的 形式 输入 ， 比 如 “/dev/sda”。 











包含 多 个 密 钥 。 首先 Imk 格式 的 iv 需要 一 








于 数据 加 密 的 密 钥 在 dm-crypt 中 也 不 一 
个 。 在 多 个 数据 加 密 密 钥 的 情况 下 ， 加 密 时 用 到 哪 一 个 呢 ? 这 就 和 下 面 要 介 





4 的 参数 














用 于 数据 加 密 的 密 钥 的 个 数 ( 不 包含 Imk 和 tew 需要 的 额外 密 钥 )。 
的 整数 次 震 。 

， 一 个 是 生成 初始 化 向 量 
个 是 参与 决定 使 
备 的 扇 区 号 是 10，iv_offset 是 3， 居 


时 需要 扁 区 号 ， 这 个 iv offset 作为 偏 移 参 与 
] 哪 一 个 密 钥 。 假 设 keycount=8， 当 前 要 处 
P 么 生成 初始 化 向 量 所 需 的 扇 区 号 是 10+3=13， 所 用 的 密 钥 
人 计数 )， 计 算 i 























里 dm-crypt 设 























可 以 











设备 号 的 格式 输入 ， 


比如 





这 个 参数 规定 dm-crypt 设备 在 “底层 ”设备 上 的 起 始 扇 区 号 。 比 如 输入 0， 就 表示 自 “ 底 
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层 ” 设 备 0 号 扇 区 开始 就 是 dm-crypt 设备 的 数据 。 





18.3 总 结 








dm-crypt 是 Device Mapper 的 一 个 子 模块 ， 它 实现 了 设备 级 的 加 解密 。 在 它 之 上 的 文件 系 
统 是 感知 不 到 加 解密 的 存在 的 。dm-crypt 对 加 密 算 法 没有 特殊 要 求 ， 只 要 是 它 所 在 的 内 核 文 持 
的 一 种 异步 块 加 密 算法 就 可 以 了 。 为 了 提高 加 密 的 效果 ，dm-crypt 在 初始 化 向 量 的 生成 上 下 了 
EIR, HLR 7 种 初始 化 向 量 生成 方式 。 还 有 一 点 很 有 趣 ，dm-crypt 本 身 没有 在 设备 上 存 
储 任何 密 钥 信息 ， 哪 怕 是 加 密 后 的 密 钥 。 























































































































18.4 参考 资料 
读者 可 参考 以 下 资料 : 


http://blog.csdn.net/sonicling/article/details/6275898 
https://gitlab.com/cryptsetup/cryptsetup/wikis/DMCrypt 
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在 没有 LUKS 之 前 ,使 用 dm-crypt 设备 需要 输入 长 长 的 密 钥 ， 人 们 通常 的 做 法 是 将 密 钥 存 
在 一 个 文件 中 ， 或 者 连 密 钥 带 dm-crypt 命令 一 起 存 入 一 个 文件 。 这 当然 不 安全 ， 使 用 起 来 也 未 
必 方 便 。 于 是 LUKS 出 现 了 。 
LUKS 的 全 称 是 Linux Unified Key Setup. LUKS 不 用 文件 来 存储 密 钥 ， 它 直接 用 块 设备 。 
将 密 钥 直接 存储 在 设备 上 当然 是 不 安全 的 。LUKS 存储 的 是 加 密 后 的 密 钥 。 一 涉及 加 密 就 又 涉 
及 密 钥 ， 让 用 户 去 记 住 这 个 新 密 钥 吗 ?” 当然 不 是 ， 否 则 LUKS 带 不 来 半点 方便 。 加 密 密 钥 来 自 
户 输入 的 一 个 字符 串 ，LUKS 将 这 个 字符 串 变 换 为 一 个 密 钥 。 












































































































































19.2 布局 





LUKS 在 块 设备 上 的 概貌 如 图 19-1 所 示 。 


图 19-1 LUKS 总 体 布 

















a 





1E LUKS 总 体 布 局 中 phdr 是 partition header 的 简写 ，KM 是 key material 的 简写 ， 就 是 加 
密 后 的 密 钥 ，bulk data 存储 的 是 加 密 后 的 数据 ， 比 如 dm-crypt 设备 就 可 以 定位 在 这 里 。 
表 19-1 描述 了 luks phdr 的 布局 。 






































表 19-1 LUKS phdr 布局 




































































偏 # 名 W 长 H 数据 类 型 说 9] 

0 约 数 (magic? 6 byte[] 

6 版 本 号 Cversion) 2 uint16 t 

8 加 密 算 法 名 称 (cipher-name) 32 char[] 
40 加 密 算法 模式 Ceipher-mode) 32 char[] 

72 哈 希 算法 Chash-spec) 32 char[] 

04 负载 偏 移 Cpayload-offset? 4 uint32 t My i 的 开始 地 址 《以 局 区 
08 密 钥 字 节 数 (key-bytes) 4 uint32 t 

12 密 钥 的 digest (mk-digest) 20 byte[] 密 钥 的 校 验 和 

32 ih (mk-digest-salt) 32 byte[] 计算 密 钥 校 验 和 时 用 到 的 盐 
64 迭代 次 数 Cnk-digest-iter) 4 uint32 t 计算 密 钥 校 验 和 的 迭代 次 数 
68 uuid 40 char[] LUKS 分 区 的 uuid 
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CHE) 
偏 移 名 称 长 E 数据 类 型 wo 
208 key-slot-1 48 byte[] 
256 key-slot-2 48 byte[] 
544 key-slot-8 48 byte[] 
表 19-2 描述 了 luks phdr 中 每 一 个 key slot 的 布局 。 
表 19-2 LUKS key slot 布局 
fu 移 名 称 长 度 数据 类 型 说 明 
0 状态 标记 Cactive) 4 uint32 t 两 个 值 : enabled 和 disbled 
4 人 迭代 次 数 Citerations) 4 uint32 t 
8 ih (salt) 32 byte[] 
40 km 偏 移 4 uint32 t AE E A DX 
44 stripes 4 uint32 t strips 数 














19.3 ”操作 


LUKS 的 操作 包括 初始 化 、 添 加 口令 (password)、 提 取 密 钥 、 撤 销 口 令 。 我 们 看 一 个 提取 
密 钥 的 操作 就 明白 了 。 

CD. 从 块 设备 读 出 luks phdr 赋值 到 变量 phdr。 

(2) 查看 约 数 (LUKS_MAGIC) 是 否 正确 ， 版 本 号 是 否 兼 容 。 

(3) 得 到 masterKeyLength: 







































































masterKeyLength = phdr.key-bytes 








(4) 提示 用 户 输入 口令 ， 将 得 到 的 口令 字符 串 存 入 变量 pwd。 
C5) 遍历 所 有 的 keyslot， 寻 找 合 适 的 密 铀 : 























for each active keyslot in phdr do 1 
当前 处 理 的 keyslot 赋值 给 变量 ks 














/* PBKDE2 是 将 口令 字符 串 转 换 为 密 钥 的 算法 */ 
pwd-PBKDF2ed = PBKDF2(pwd, ks.salt, ks.iteration-count, 
masterKeyLength) 











read from partition(encryptedKey, ks.key-material-offset, 

masterKeyLength * ks.stripes) 

/* key-material-offset 以 扇 区 为 单位 ，stripes 的 作用 是 扩散 。 

* 在 块 设备 中 存储 的 处 理 过 的 密 钥 的 长 度 是 原始 密 钥 长 度 的 stripes fit. 

* 上 面 读 操作 的 目的 地 址 是 encryptedKey */ 

splitKey = decrypt(phdr.cipher-name, phdr.cipher-mode, 
pwd-PBKDF2ed, encryptedKey,; 
masterKeyLength*ks.stripes) 
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masterKeyCandidate = AFmerge (splitKey, masterKeyLength, 
ks.stripes) 




















/* 已 经 对 加 密 后 的 密 钥 实 施 了 解密 操作 ， 下 面 要 验证 一 下 这 个 密 钥 */ 

/* 首先 计算 校 验 值 */ 

MKCandidate-PBKDF2ed = PBKDF2 (masterKeyCandidate, 
phdr.mk-digest-salt, 
phdr.mk-digest-iter, 
LUKS DIGEST SIZE) 

/* 和 存储 的 校 验 值 比较 */ 

if equal(MKCandidate-PBKDF2ed, phdr.mk-digest) { 

BEHIA, masterKeyCandidate 就 是 要 找 的 密 钥 
} 
} 
































(6) 若 输 入 的 口令 和 任何 一 个 key slot 都 无 法 匹配 ， 则 返回 错误 。 

PBKDF2 是 “password based key derive function 2” 的 简称 。 它 用 来 加 强 粹 (entropy) 值 低 
的 口令 (password) 的 安全 性 。PBKDF2 的 实现 就 是 将 口令 字符 串 加 上 “ 盐 ” 做 若干 次 哈 希 操 
TE, 将 最 后 的 结果 作为 密 钥 。AFmerge 和 AFsplit 是 一 对 函数 ， 上 面 的 操作 只 用 了 AFmerge。 它 
们 的 作用 是 扩散 (diffusion )。 扩 散在 密码 中 的 含义 可 以 参考 https://en.wikipedia.org/wiki/ 


Confusion and diffusion。 



















































































19.4. 总 结 

















LUKS 的 作用 就 是 将 加 密 后 的 密 钥 存储 在 一 个 块 设备 的 开头 ， 在 它 的 后 面 才 是 加 密 设 备 的 
存储 ， 比 如 dmr-crypt。 将 直接 使 用 密 钥 转变 为 使 用 口令 ， 这 可 以 称 为 人 性 化 吧 。 人 记忆 数字 总 
是 比 记 忆 字 符 串 困难 。 

LUKS 的 格式 限制 了 最 多 可 以 有 8 个 加 密 后 的 密 钥 存储 。 需 要 注意 的 是 ， 这 8 个 存储 的 都 
是 对 一 个 密 钥 的 加 密 。 只 不 过 加 密 密 钥 的 密 钥 是 不 同 的 。 这 个 加 密 密 钥 所 用 的 密 钥 是 由 用 户 输 
入 的 口令 字符 串 转化 来 的 

EA LUKS 使 用 了 一 些 办 法 来 增强 由 口令 转化 为 密 钥 的 箭 ， 但 是 安全 性 肯定 还 是 要 比 原生 
密 钥 差 。 没 办 法 ， 安 全 性 与 易 用 性 总 是 矛盾 的 。 










































































































































































19.5 参考 资料 


读者 可 参考 以 下 资料 : 
https://gitlab.com/cryptsetup/cryptsetup/wikis/LUK S-standard/on-disk-format.pdf 


196 


第 六 部 分 其 他 


Linux 安全 人 员 将 难以 归 类 的 安全 功能 称 为 安全 增强 ， 并 认为 本 书 前 面 讲述 的 那些 安全 特 
性 是 Linux 内 核 安全 的 主流 。 但 是 有 一 个 有 些 令 人 槛 雁 的 事实 : 那些 “主流 ”的 安全 特性 的 使 
] 率 有 些 低 。 相 对 来 说 ， 用 户 更 喜欢 使 用 小 的 安全 增强 ， 而 不 是 系统 性 的 安全 特性 。 
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20.1.1 7E 23 3 UV. 


“容器 ”就 是 在 一 个 操作 系统 内 核 上 放置 多 个 彼此 分 隔 的 用 户 态 空间 , 运行 于 其 中 的 应 用 在 

某 种 程度 上 感觉 它 〈 们 ) 独立 运行 在 整个 物理 主机 上 ， 没 有 其 他 应 用 的 存在 。 容 器 还 有 一 个 学 

术 味 道 更 浓 的 同义词 一 一 操作 系统 级 虚拟 化 。 

在 UNIX 家 族 中 ， 容 器 概念 早 就 有 了 。 早 期 的 实现 有 FreeBSD 的 “监狱 (Jail)”9。 它 可 

以 被 概括 为 四 个 要 素 : 
(OD 目录 树 : 这 是 “监狱 ”的 起 点 ， 进 程 一 旦 进入 就 不 能 逃离 。 
(D 主机 名 : 在 “监狱 ”中 进程 看 到 的 主机 名 。 
G) 网 络 地 址 : 在 “监狱 ”中 的 网 络 地 址 ， 通 常 是 现 有 网 络 接口 的 一 个 别名 地 址 。 
(D 命令 :“ 监 狱 ” 中 运行 的 第 一 个 命令 ， 它 产生 “监狱 ”中 的 第 一 个 进程 。 


20.1.2 chroot0 与 pivot root() 





































































































































































































FreeBSD 的 “监狱 ”基于 的 是 系统 调用 chroot()。 稍 做 研究 ， 就 会 发 现 chroot0) 有 一 些 安全 
隐患 。 先 看 下 面 这 个 小 程序 : 


























my chroot.c 

finclude <stdio.h> 
finclude «errno.h» 
finclude <string.h> 
finclude <unistd.h> 
finclude <stdlib.h> 








int main(int argc, char **argv) 
{ 
if (argc«2) ( 
fprintf(stderr, "Usage: $s chroot dir\n", argv[0]1); 
exit(1); 
} 


if (chroot(argv[1])«0) ( 
fprintf (stderr, "Failed to chroot to $s - $sWMn", argv[1], strerror(errno)); 
exit(1); 





© Jl https://www.freebsd.org/doc/handbool/jails.html » 
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} 

if (execl("/bin/bash", "-i", NULL)«0 ) ( 
fprintf(stderr, "Failed to exec - $sMn", strerror(errno)); 
exit(1); 


zhiGubuntu-desktop:-/tmp$ gcc -o my chroot my chroot.c 
zhiGubuntu-desktop:-/tmp$ sudo bash 
root(ubuntu-desktop:-/tmpt ./my chroot bash dir/ 
-i-4.24 pwd 

(unreachable)/home/zhi/tmp 

-i-4.24 





my. chroot 进程 将 /home/zhi/tmp/bash_dir 转变 为 进程 的 根 目录 , 但 是 进程 的 当前 目录 仍然 是 








Ahome/zhi/tmp。 进 程 的 当前 目录 不 在 进程 的 根 目 录 之 下 。 进 程 可 以 通过 相对 路 径 轻 松 越狱 : 


-i-4.24 while read line; do echo $line; done «../../../etc/passwd 





root:x:0:0:root:/root:/bin/bash 
daemon:x:1:1:daemon: /usr/sbin:/bin/sh 
bin:x:2:2:bin:/bin:/bin/sh 


Sys:x:3:3:sys:/dev: /bin/sh 

gdm:x:114:120:Gnome Display Manager:/var/lib/gdm:/bin/false 
zhi:x:1000:1000:Zhi Li,,,:/home/zhi: /bin/bash 
ntp:x:127:139::/home/ntp: /bin/false 


xrdp:x:128:140::/var/run/xrdp:/bin/false 
-i-4.24 














所 以 ， 应 用 程序 调用 chroot 之 前 或 之 后 一 般 都 要 将 自己 的 当前 工作 目录 置 于 chroot 之 后 的 




















根 目 录 中 ， 和 否则 就 是 一 个 安全 漏洞 。 补 上 这 个 漏洞 ， 前 面 的 程序 就 变 成 : 








my chroot2.c 


if (chroot(argv[1])«0) ( 


fprintf (stderr, "Failedtochrootto$s-$sMn",argv[1], strerror(errno)); 


exit(1); 


if (chdir("/")) ( 


fprintf (stderr, "Failed to chdir to / - s\n", strerror(errno)); 


exit(1); 


if (execl("/bin/bash", "-i", NULL)«0 ) ( 
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即使 应 用 程序 都 坚持 做 到 在 chroot 之 前 或 之 后 改变 进程 的 当前 工作 目录 ，chroot 还 是 有 系 
统 性 漏洞 。 在 1999 年 就 有 人 演示 了 一 段 代 码 来 实现 chroot 逃逸 ?。 以 下 代码 是 前 人 代码 的 简化 
版 本 : 






































my chroot-break.c 

finclude <stdio.h> 
finclude «errno.h» 
finclude <string.h> 
finclude <unistd.h> 


int main(int. argc, char **argv) { 


int i; 


if (argc«2) ( 
fprintf(stderr, "Usage: $s temp dir\n", argv[0]); 













































































exit(1); 
} 
if ( chroot(argv[1])<0 ) { 改变 进程 根 目录 到 当前 
fprintf(stderr, "Failed to chroot to $s - $sMn", 录 的 一 个 子 目 录 。 FE 
argv[1], strerror(errno)); 有 意 不 改变 当前 录 
exit(1); 
) 
for (i20;i«1024;i*-*) chdir(".."); 























假设 目录 层级 不 超过 1024, 让 当前 目录 向 
chroot ("."); 上 1024 次 ， 必 然 达 到 真正 的 根 目 录 












































if (execl("/bin/bash", "-i", NULL)«O) ( 
fprintf(stderr, "Failed to exec - $sMn", strerror(errno)); 
exit(1); 
} 
} 


在 内 核 中 的 进程 控制 结构 中 ， 每 个 进程 都 关联 了 两 个 路 径 : 一 个 指 问 进程 的 当前 工作 目录 
(cwd)， 男 一 个 指向 进程 的 根 目录 (root)。 在 访问 文件 时 进程 提供 的 文件 名 有 两 种 写法 : 一 种 
是 绝对 路 径 ， 比 如 “Amusrbin/bash”， 这 是 从 进程 的 根 目录 癌 下 一 级 一 级 寻找 ;， 另 一 种 是 相对 路 
径 ， 比 如 “../../usr/bin/bash”， 这 是 从 进程 的 当前 工作 目录 查找 ， 如 果 出 现 “..” 就 向 上 查找 。 为 
了 保证 不 会 逃逸 出 进程 的 根 目录 ， 内 核 代码 在 解析 “..* 时 会 和 进程 的 根 目 录 进 行 比较 ,如果 相 等 
就 不 再 癌 上 查找 。 目 录 结 构 就 象 一 棵 倒 长 的 树 。 

在 代码 中 写 入 chroot("/home/zhi/tmp/bash dir")， 就 是 将 调用 进程 的 根 目 录 设 置 为 
“/home/zhi/tmp/bash_dir”。 这 时 如 果 进 程 的 当前 工作 目录 (cwd) 没有 被 设置 到 这 个 根 目录 或 其 
下 ， 进 程 就 可 以 通过 相对 路 径 访 问 到 根 目 录 之 外 的 文件 或 目录 ， 逃 锡 也 就 发 生 了 。 所 以 应 用 软 
件 在 调用 chroot 之 前 或 之 后 应 确保 进程 的 工作 目录 被 设置 到 进程 的 根 目 录 或 之 下 。 















































































































































C nN http://www.bpfh.net/simes/computing/chroot-break.html.. 
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上 面 那 段 代码 调用 chroot， 但 是 有 意 不 改变 自己 的 工作 目录 ， 制 造 出 工作 目录 游离 于 根 目 
录 的 状况 ， 然 后 通过 相对 路 径 实现 逃逸 。 代 码 涉及 的 目录 结构 如 图 20-1 所 示 。 















































图 20-1 文件 系统 目录 结构 

对 此 ，BSD 的 对 策 是 在 系统 调用 chroot 中 进行 了 一 些 限 制 : 在 改变 进程 根 目录 的 同时 也 改 
变 进程 的 当前 工作 目录 ; 如 果 进 程 在 调用 chroot 时 有 打开 的 文件 描述 符 指向 目录 ， 就 拒绝 执行 
chroot。 而 Linux 的 做 法 是 公开 承认 chroot 不 安全 ， 进 而 引入 新 的 机 制 : pivot_root。 

系统 调用 pivot root 改变 的 不 是 单个 进程 的 根 目 录 和 当前 工作 目录 ， 而 是 文件 系统 的 挂 载 
结构 。 假设 块 设备 sdal 挂 载 在 “/” sda2 挂 载 在 “/home” sda3 挂 载 在 “/home/zhi/tmp/my_root”， 
则 在 图 20-1 中 的 文件 系统 目录 结构 中 加 入 文件 系统 挂 载 数 据 后 情况 如 图 20-2 所 示 。 
























































































































































图 20-2 文件 系统 目录 结构 和 挂 载 结构 



































在 程序 中 调用 下 面 的 语句 pivot root(*/home/zhi/tmp/my root", */home/zhi/tmp/my. root/ 
old”) 后 会 导致 文件 系统 挂 载 结构 和 目录 结构 变化 ， 如 图 20-3 所 示 。 














C) 见 http://yarchive.net/comp/linux/pivot_root.html。 
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图 20-3 pivot root 对 文件 系统 的 影响 














如 果 在 程序 的 后 续 代码 中 调用 umount(“/old/home”) 和 umount(“/old”) 就 可 以 摘除 sdal 和 
sda2 设备 的 挂 载 , 进程 就 只 能 访问 sda3 设备 中 的 文件 了 。 在 没有 本 章 所 要 讲述 的 命名 空间 之 前 ， 
pivot root 的 代价 是 很 大 的 , 它 会 改变 整个 系统 的 挂 载 结构 。 在 有 了 命名 空间 后 , 效果 如 图 20-4 
所 示 。 
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图 20-4 pivot root 和 命名 空间 一 起 作用 


20.2 机 制 


namespace 可 翻译 为 命名 空间 或 名 字 空 间 。 本 章 用 命名 空间 这 个 译名 。 命名 空间 基本 含 
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义 就 是 隔离 ， 在 一 个 命名 空间 中 做 的 事情 不 会 影响 到 另 一 个 命名 空间 。 本 章 引 言 中 讲述 的 
和 文件 系统 相关 的 命名 空间 是 挂 载 命名 空间 ， 它 只 是 目前 Linux 内 核 的 六 个 命名 空间 中 的 
一 个 。Linux 内 核 的 命名 空间 在 2008 年 之 前 即 已 成 型 。 其 中 ，USER 命名 空间 在 2013 年 被 
重新 实现 。 命 名 空间 历史 见 表 20-1。 
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表 20-1 命名 空间 历史 


























名 H 时 gu 版 ”本 
MOUNT ( 挂 载 ) 2002 2.4.19 
UTS (UNIX 分 时 系统 ) 2006 2.6.19 
IPC 进程 间 通 信 ) 2006 2.6.19 
PID (进程 号 ) 2007 2.6.24 
NET (网 络 ) 2007 2.6.24 

USER (JH) 2007/2013 2.6.23/3.8 























下 面 大 致 按照 进入 内 核 的 时 间 顺 序 叙 述 一 下 它们 的 机 第 
20.2.1 挂 载 命 名 空间 


挂 载 命 名 空间 进入 内 核 最 早 ， 通 过 挂 载 全 
隔离 方案 。 下 面 看 看 内 核 中 相关 的 数据 结构 。 





c 


o 














; 


E 间 ，Linux 能 够 提供 比 chroot DL 





c 


更 完备 的 





























fs/mount.h 


struct mnt namespace { 


unsigned int proc inum; 
struct mount *root; 


struct user namespace *user ns; 





E 
struct mount { 


struct mount *mnt parent; 
struct dentry *mnt mountpoint; 


struct mnt namespace *mnt ns; /* containing namespace */ 


struct list head mnt mounts; /* list of children, anchored here */ 
struct list head mnt child; /* and going through their mnt child */ 
}; 
mnt namespace 中 root 指针 指向 根 mount。 每 个 mount 的 成 员 mnt ns 指向 它 所 属 的 


mnt namespace， 此 外 通过 成 员 mnt parent. mnt mounts. mnt child， 多 个 mount 共同 串 起 一 棵 
文件 系统 挂 载 树 。 下 面 看 一 个 例子 ， 如 图 20-5 所 示 。 
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/dev/sdal 
















/dev/sda2 






/home/zhi/tmp/my. root 
/dev/sda3 


图 20-5” 挂 载 树 例子 




















在 内 核 中 mount 和 mnt space 的 实例 如 图 20-6 所 示 。 


/ 


mnt_ns 
__ root 
mnt parent 
mnt mounts 
mnt child 


mount mount 


mnt ns mnt ns mnt ns 


mnt parent mnt parent mnt parent 
mnt mounts mnt mounts mnt mounts 
mnt child mnt child mnt child 





y 


mount 
I! 


\ mnt_ns 


mnt_parent 
mnt_mounts 
mnt_child 








R] 





20-6 ” 挂 载 树 例子 的 内 核 数据 结构 实例 


























每 个 mount 结构 实例 都 有 一 个 指针 mnt ns 指向 一 个 mnt namepace 结构 实例 ，mnt_ 
namespace 实例 中 有 一 个 指针 root 指向 根 mount 实例 。 背 后 的 含义 是 ， 每 个 mount 都 属于 一 个 
mnt_namespace， 从 mnt namespace 可 以 得 到 根 mount， 进 而 得 到 整个 mount 树 。 

下 面 看 一 下 进程 的 控制 结构 task. struct: 


























include/linux/sched.h 





struct task struct { 
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struct nsproxy *nsproxy; 
} 
include/linux/nsproxy.h 
struct nsproxy { 
atomic t count; 
struct uts namespace *uts ns; 
struct ipc namespace *ipc ns; 
struct mnt namespace *mnt ns; 
struct pid namespace *pid ns for children; 
struct net *net ns; 


}; 


每 个 进程 和 一 组 命名 空间 相对 应 ， 其 中 包括 本 节 介 绍 的 挂 载 命名 空间 (mount namespace). 
通过 挂 载 命 名 空间 ， 进 程 和 一 棵 挂 载 树 相 联系 。 改 变 了 进程 的 挂 载 命名 空间 ， 进 程 就 和 另 一 棵 
挂 载 树 相 对 应 。 


20.2.2 ”进程 间 通 信和 命名 空间 


] 挂 载 命 名 空间 来 禁 铀 进程 对 文件 系统 的 访问 只 是 第 一 步 。 很 快 开 发 人 员 束 发 现 仅 靠 它 还 
远 不 能 说 隔绝 了 进程 。 一 个 容易 想到 的 攻击 是 利用 进程 间 通 信 将 本 不 能 被 进程 访问 的 文件 的 内 
容 呈 现 给 进程 。 于 是 ， 有 了 进程 间 通 信 命 名 空间 。 

Linux 内 核 IPC 类 对 象 有 三 类 : 消息 队列 (Message Queue). fi^ 
内 存 (Shared Memory)。 进 程 间 通 信 命 名 空间 的 数据 结构 如 下 : 
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include/linux/ipc_namespace.h 
struct ipc_namespace { 


struct ipc_ids ids[3]; 
unsigned int msg_ctlmax; 
size_t shm_ctlmax; 











unsigned int mq queues max; /* initialized to DFLT QUEUESMAX */ 





/* user ns which owns the ipc ns */ 


struct user namespace *user ns; 





unsigned int proc inum; 


}; 



































其 中 主要 有 两 类 数据 成 员 : 一 类 是 ids， 用 于 存储 IPC 对 象 的 id。msgget、semget、shmget 

会 和 进程 关联 的 ipc_namespace 实例 的 ids 中 查找 或 创建 新 成 员 。 男 一 类 是 一 些 资 源 限制 类 变量 ， 
如 shm_ctlmax， 共 享 内 存 最 大 值 。 
下 面 以 信号 量 为 全 看 一 下 进程 间 通 信 对 象 的 创建 和 寻找 ， 进 而 了 解 进程 间 通 信 命 名 空间 的 

作用 。 























aH 





















































ipc/sem.c 
SYSCALL DEFINE3(semget, key t, key, int, nsems, int, semflg) 
{ 
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struct ipc namespace *ns; 
struct ipc ops sem ops; 
struct ipc params sem params; 


ns = current-»nsproxy-^ipc ns; 


if (nsems < 0 || nsems > ns-»sc semmsl) 
return -EINVAL; 





sem ops.getnew = newary; 
sem ops.associate - sem security; 


sem ops.more checks - sem more checks; 





sem params.key key; 
sem params.flg - semflg; 


sem params.u.nsems - nsems; 


return ipcget(ns, &sem ids(ns), &sem ops, &sem params); 






























































系统 调用 semget 用 于 获取 一 个 已 有 的 信号 量 或 者 创建 一 个 新 的 信号 量 。 它 的 功能 类 似 于 作 
于 文件 的 系统 调用 open。 系 统 调用 semget 的 函数 实现 的 最 后 是 调用 了 函数 ipcget。 
























































ipc/util.c 





int ipcget(struct ipc namespace *ns, struct ipc ids *ids, 


struct ipc ops *ops, struct ipc params *params) 


if (params-»5key == IPC PRIVATE) 


return ipcget new(ns, ids, ops, params); 





else 
return ipcget public(ns, ids, ops, params); 
) 
ipc/util.c 
static int ipcget new(struct ipc namespace *ns, struct ipc ids *ids, 


struct ipc ops *ops, struct ipc params *params) 


int err; 


down write(&ids-»rwsem); 
err = ops-»getnew(ns, params); 
up write(&ids-»rwsem); 
return err; 
} 
static int ipcget public(struct ipc namespace *ns, struct ipc ids *ids, 
struct ipc ops *ops, struct ipc params *params) 


ipcp = ipc findkey(ids, params-»key); 
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if (ipcp == NULL) { 


err = ops-»getnew(ns, params); 
) else { 


return err; 


) 





























函数 ipcget public 会 调用 函数 ipe. findkey 去 寻找 信号 量 。 函 数 ipe. findkey 的 输入 参数 有 两 
个 。 一 个 是 ids，ids 实际 上 是 “&sem ids(ns)", sem ids 的 实现 为 : (os)->ids[IPC_ SEM IDS])， 
就 是 结构 ipc_namespace 中 的 数组 ids 的 一 项 。 另 一 个 是 key。 
函数 ipcget new 会 调用 “ops->getnew”， 具 体 在 信号 量 的 情况 中 会 调用 函数 newary。 我 们 
看 一 下 : 





















































ipc/sem.c 


static int newary(struct ipc namespace *ns, struct ipc params *params) 
( 

struct sem array *sma; 

sma = ipc rcu alloc(size); 

id = ipc addid(&sem ids(ns), &sma-»sem perm, ns-»sc semmni); 


return sma-»sem perm.id; 


) 








函数 newary 大 致 工作 内 容 是 申请 一 个 信号 量 ， 然 后 将 此 信和 号 量 的 标识 加 入 ipe namespace 
寺 构 的 ids 中 信号 量 相 联系 的 表 项 中 。 

综 上 ， 进 程 间 通信 的 标识 存储 在 进程 间 通 信 命 名 空间 中 ， 进 程 间 通信 命名 空间 不 同 ， 进 程 
寻找 到 的 进程 间 通 信 实 例 也 不 同 。 


20.2.3 UNIX 分 时 命名 空间 




















VTS 














UNIX 分 时 命名 空间 是 UNIX Time Sharing 的 直译 ， 简 写 为 UTS。 此 命名 空间 的 定义 
如 下 : 











include/linux/utsname.h 


struct uts namespace 


struct new utsname name; 


struct user namespace *user ns; 





unsigned int proc inum; 


}; 


struct new utsname { 
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char sysname[ NEW UTS LEN + 1]; 
char nodename[ NEW UTS LEN + 1]; 
char release[ NEW UTS LEN -* 1]; 
char version[ NEW UTS LEN + 1]; 
char machine[ NEW UTS LEN + 1]; 


char domainname[ NEW UTS LEN + 1]; 
}; 


从 其 数据 成 员 看 ， 主 要 是 主机 名 、 系 统 名 、 版 本 号 之 类 的 信息 。 有 了 UTS 命名 空间 ， 
运行 于 容器 中 的 应 用 能 更 允 真 地 认为 自己 在 独 享 一 台 实 际 主 机 。 其 中 ， 除 machine 外 的 五 
个 数据 成 员 对 应 /proc/sys/kernel/ 下 的 五 个 伪 文 件 : ostype. hostname. osrelease. version. 
domainname， 对 这 五 个 伪 文 件 的 读 写 对 应 读 取 或 修改 五 个 UTS 数据 成 员 。 另 外 还 有 两 个 系 
统 调用 : sethostname 用 来 修改 nodename，setdomainname 用 来 修改 domainname。machine 
比较 特殊 ， 没 有 伪 文 件 对 应 ， 也 没有 系统 调用 可 以 修改 它 的 值 。 因 为 这 不 是 虚拟 机 ， 硬 件 
信息 不 能 修改 。 那 为 什么 还 要 在 UTS 命名 空间 中 设置 变量 machine WE? 这 是 为 了 适应 系统 


调用 uname: 













































































































































































int uname(struct utsname *buf); 
struct utsname { 
char sysname[]; /* Operating system name (e.g., "Linux") */ 


char nodename[]; /* Name within "some implementation-defined network" 


*/ 
char release[]; /* OS release (e.g., "2.6.28") */ 
char version[]; /* OS version */ 
char machine[]; /* Hardware identifier */ 


#ifdef GNU SOURCE 
char domainname[]; /* NIS or YP domain name */ 
fendif 


20.24 ”进程 号 命名 空间 


如 果 没 有 进程 号 命名 空间 ， 那 么 容器 中 的 进程 就 能 够 看 到 容器 外 的 进程 ， 进 而 可 以 通过 系 
统 调用 kil 向 容器 外 的 进程 发 送信 号 。 这 当然 不 好 。 进 程 号 命名 空间 让 容器 内 的 进程 不 能 看 到 
容器 外 的 进程 。 但 是 这 种 隔绝 是 单 向 的 ， 容 器 外 的 进程 可 以 看 到 容器 内 的 进程 。 更 有 趣 的 是 ， 
同一 个 进程 在 容器 内 有 一 个 进程 号 ， 在 容器 外 有 另 一 个 进程 号 。 下 面 看 一 下 进程 号 命名 空间 的 
数据 结构 : 




























































































include/linux/pid namespace.h 
struct pidmap { 

atomic t nr free; 

void *page; 
}; 


struct pid namespace { 
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struct pidmap pidmap[PIDMAP ENTRIES]; 


unsigned int level; 








struct pid namespace *parent; 





struct user namespace *user ns; 


unsigned int proc inum; 
}; 


进程 号 命名 空间 不 同 于 前 面 讲述 的 几 个 命名 空间 ， 它 有 层次 关系 。 在 子 进 程 号 命名 空间 中 
创建 进程 , 不 仅 子 进程 号 命名 空间 会 分 配 一 个 进程 号 ， 父 进程 号 命名 空间 也 会 分 配 一 个 进程 号 ， 
如 图 20-7 所 示 。 






























































进程 号 到 底 是 什么 呢 ? 它 的 数据 结构 如 下 : 


include/linux/pid.h 
struct upid { 
int nry 
struct pid namespace *ns; 
struct hlist node pid chain; 
}; 


struct pid 
{ 


unsigned int level; 
struct hlist head tasks[PIDTYPE MAX]; 





struct upid numbers[1]; 


}; 

struct pid link 

{ 
struct hlist node node; 
struct pid *pid; 

}; 

include/linux/sched.h 


struct task struct 1 
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struct pid link pids[PIDTYPE MAX]; 





}; 

include/linux/pid.h 

enum pid type 

{ 
PIDTYPE PID, 
PIDTYPE PGID, 
PIDTYPE SID, 
PIDTYPE MAX 

} 


在 task. struct 中 存储 着 一 个 长 度 为 3、 类 型 为 pid_link 的 数组 pids， 数 组 成 员 分 别 对 应 
进程 的 进程 号 、 进 程 组 号 和 会 话 号 。 结 构 pid_link 中 的 指针 成 员 pid 指向 实际 的 pid 实例 。 
结构 pid 中 的 hlist head 类 型 成 员 tasks 用 于 关联 pid link 中 的 hlist node 类 型 成 员 node, 
目的 是 通过 pid_link 实例 关联 到 进程 的 task_struct 实例 。pid_link 作为 “中 介 ” 帮助 pid 
和 task struct 实现 双向 关联 。 

举 个 例子 ， 假 设 系统 中 有 4 个 进程 ， 这 4 个 进程 同属 于 一 个 会 话 ， 其 中 两 个 进程 同属 于 一 
个 进程 组 ， 另 两 个 进程 属于 另 一 个 进程 组 ， 如 图 20-8 所 示 。 
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图 20-8 进程 号 命名 空间 例子 


在 内 核 中 相关 的 数据 结构 如 图 20-9 所 示 。 
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task. struct 








level-0 
numbers 






task struct 


level-0 
numbers 


tasks 


^L [rid] 
[| 
| [sid | 





numbefs 


tasks 


^L. [rid | 











图 20-9 进程 号 命名 空间 相关 数据 结构 














结构 pid 中 可 以 有 多 个 进程 号 ， 哪 一 个 进程 号 有 效 取决 于 进程 号 命名 空间 。 




















kernel/pid.c 
pid t pid nr ns(struct pid *pid, struct pid namespace *ns) 
{ 

struct upid *upid; 

pid t nr = 0; 


if (pid && ns-»level <= pid-»level) { 
upid = &pid-»numbers[ns-»level]; 
if (upid-»ns -- ns) 
nr = upid-»nr; 
} 


return nr; 























每 一 个 进程 号 都 关联 着 一 个 进程 号 结构 ， 但 是 进程 号 结构 中 可 能 有 多 个 进程 号 ， 取 出 哪 一 
个 进程 号 取决 于 进程 号 命名 空间 中 的 变量 level, WE 20-10 所 示 。 





nul 
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嵌 套 数 


有 了 进程 号 命名 空间 后 ， 
目 ， 数 组 成 员 的 类 型 








还 含有 








20.2.5 


网 络 命名 空 





个 指针 指 


I 


向 它 所 从 


task_struct 


level=3 























进程 号 命名 空间 本 身 是 
父 进程 ij 











网 络 命名 空间 





间 让 整个 系统 不 必 
件 include/net/net namespace.h 之 中 。 


结构 pid 中 含有 
upid。upid 含有 
属 的 进程 号 命名 空 
个 树 状 结构 ， 有 











level-4 


numbers 








图 20-10 ”进程 号 


命名 空间 中 的 级 别 

















个 数组 ， 数 组 的 大 小 取决 于 进程 号 命名 空 




















个 整数 ， 


间 。 

















个 数字 表示 它 所 处 的 级 别 ， 另 有 

















20.2.6 ”用 户 命 名 空间 


Meu HP 
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include/linux/user namespace.h 


struct user namespace { 


Struct 
struct 
struct 
struct 


int 


unsigned int 


}; 


uid gid mapuid map; 


uid gid mapgid map; 


uid gid mapprojid map; 





user namespac 
level; 


struct uid gid map { 


u32 nr extents; 


*parent; 


proc inum; 


struct uid gid extent { 
u32 first; 


享 一 套 网 络 配 置 , 像 PP 地 址 、 路 | 


间 主 要 涉及 用 户 id 的 分 配 。 


表示 在 某 进 程 号 命名 空 


间 的 
间 中 的 进程 号 

















个 指针 指向 

















T 


表 之 类 。 它 的 定义 在 文 





第 


第 20 间 namespace 








u32 lower first; 
u32 count; 

) extent [UID GID MAP MAX EXTENTS]; 

}; 











先 说 uid gid map. lower first 从 字面 上 看 是 指 低 一 级 命名 空间 中 的 id， 实 际 上 它 存 的 是 内 
核 id。 内 核 保存 一 个 唯一 的 id， 在 不 同 的 命名 空间 中 将 此 id 变换 后 呈现 给 用 户 。first 是 这 个 
map 中 第 一 个 id 号 ，count 是 此 map 的 数量 。 转 换 时 ， 用 内 核 id 减 去 lower. first 再 加 上 first 就 
是 在 命名 空间 中 呈现 给 用 户 的 ido id 转换 的 实现 很 简单 : 
























































kernel/user namespace.c 
uid t from kuid(struct user namespace *targ, kuid t kuid) 
{ 

/* Map the uid from a global kernel uid */ 

return map id up(&targ-»uid map, _ kuid val(kuigd)); 
) 
static u32 map id up(struct uid gid map *map, u32 id) 
{ 

unsigned idx, extents; 

u32 first, last; 


/* Find the matching extent */ 
extents = map-»nr extents; 
smp read barrier depends(); 
for (idx = 0; idx < extents; idx++) { 
first = map-»extent[idx].lower first; 
last = first + map-»extent[idx].count - 1; 
if (id >= first && id <= last) 
break; 
} 
/* Map the id or note failure */ 
if (idx < extents) 
id = (id - first) + map->extent [idx].first; 
else 
id = (u32) -1; 


return id; 


) 














不 知 读者 是 否 注意 到 ， 用 户 命 名 空间 和 进程 号 命名 空间 都 是 树 状 层 级 结构 ， 但 是 实现 方法 
却 不 尽 相同 。 作 者 认为 主要 的 原因 有 两 点 : 第 一 ， 用 户 id 是 静态 的 ， 需 要 跨越 计算 机 重新 启动 保持 
一 致 ， 第 二 ， 进 程 号 的 创建 和 注销 非常 频繁 ， 很 难 在 不 同 进程 号 命名 空间 之 间 做 “批量 映射 ”。 
值得 注意 的 是 用 户 命名 空间 涉及 第 6 章 提 到 的 特权 。 





























































































































security/commoncap.c 


int cap capable(const struct cred *cred, struct user namespace *targ ns, 
int cap, int audit) 
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{ 


} 





struct user namespace *ns = targ ns; 





/* See if cred has the capability in the target user namespac 
* by examining the target user namespace and all of the target 





* user namespace's parents. 
ur 
for (;;) ( 





/* Do we have the necessary capabilities? */ 





if (ns == cred-»user ns) 
return cap raised(cred-»cap effective, cap) ? 0 : -EPERM; 





/* Have we tried all of the parent namespaces? */ 
if (ns == &init user ns) 
return -EPERM; 


/* 
* The owner of the user namespace in the parent of the 





* user namespace has all caps. 
xy 
if ((ns-»parent == cred-»user ns) && uid eq(ns-»owner, cred-»euid)) 





return 0; 


/* 
* If you have a capabilityin a parent user ns, then you have 





* it over all children user namespaces as well. 
e 


ns = Dns-»oparent; 





/* We never get here */ 


从 代码 看 : 








e 如 果 进 程 的 用 户 命 名 空间 是 要 判断 的 命名 空间 的 直系 祖先 父亲、 祖父 、 曾 祖 ……)， 


进程 的 有 效 uid 又 恰好 是 要 判断 的 命名 空间 的 创建 者 ， 那 么 就 认为 进程 具备 全 部 能 









































e 如 果 进 程 的 用 户 命名 空间 就 是 要 判断 的 命名 空间 ， 就 判断 进程 是 否 具备 能 力 ， 这 和 以 前 


的 逻辑 相同 。 





e 否则 ， 进 程 不 具备 任何 权限 。 


作者 对 上 述 第 一 条 有 一 点 疑问 : 能 力 机 制 的 引入 就 是 要 将 特权 和 用 户 id 分 离 ， 这 里 又 将 用 






























































户 id 和 特权 联系 在 一 起 ， 这 是 否 明 智 呢 ? 
下 面 看 一 个 使 用 例子 : 
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[0] 


























fs/namespace.c 
tatic inline bool may mount (void) 


return ns capable(current-»nsproxy-»mnt ns-»user ns, CAP SYS ADMIN); 


第 


& 20 3$ namespace 








A 





ZUM 


20.2.7 














kernel/capability.c 


bool ns capable(struct user namespace *ns, 


{ 





if 
printk(K 
BUG(); 

} 

if 


current-»flags 


(security capable (current cred(), 
|= PF SUPERPRIV; 


return true; 


) 


return false; 


) 


security capable 会 辊 转调 用 到 cap. capable. 注 
的 是 current->nsproxy->mnt ns-»user ns， 就 是 挂 载 命名 空间 所 关联 的 月 






























































用 户 命名 空间 中 除了 uid 还 
只 有 XFS 使 用 )。 


进程 数据 结构 












































| 


下 面 梳理 一 下 相关 的 数据 结构 。 





include/linux/sched.h 


struct task struct 1 


/* namespaces */ 


int cap) 


(unlikely(!cap valid(cap))) { 
ERN CRIT "capable() 


ns, cap) == 0) ( 








dh o 














J 


















































首先 ， 是 进程 控制 块 : 














struct nsproxy *nsproxy; 


const struct cred rcu *cred; 


) 


nsproxy 中 存储 了 除 USER 命名 空间 外 的 其 余 五 个 命名 空间 。 





include/linux/nsproxy.h 


struct nsproxy { 


atomic t count; 


struct 

struct 

struct 

struct 

struct 
}; 


这 五 个 命名 空间 中 都 有 





uts namespace 
ipc namespace 
mnt namespace 
pid namespace 
net 














个 指针 指向 它 所 从 属 的 有 


*uts ns; 
*ipc ns; 
*mnt ns; 
*pid ns for children; 


*net ns; 


























called with invalid cap-$uMn", 


cap); 





在 may mount 中 调用 ns capable 时 使 用 


空间 。 上 述 代码 





味 着 ， 如 果 进 程 不 在 挂 载 命 名 空间 所 关联 的 用 户 命 名 空间 之 中 ， 或 者 不 在 挂 载 命名 空间 所 关 
联 的 用 户 命名 空间 的 某 个 直系 祖先 之 中 ， 进 程 不 能 改变 挂 载 命 名 空间 。 
有 gid (group id， 与 uid 类 似 ) 和 projid (和 quota 有 关 ， 似 平 














] 户 命名 空间 。 这 主要 是 为 了 做 特权 判断 。 
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用 户 命名 空 





间 存 储 在 cred 中 。 


include/linux/cred.h 


struct cred ( 





struct user namespac 


) 





作为 命名 空间 





在 各 个 命名 空 





的 唯一 标识 。 


20.3 ” 伪 文 件 系统 




















间 的 数据 结构 中 都 有 


在 /proc/[pidjns 下 有 六 个 文件 : 


*user ns; 














个 proc inum, 它 


它 是 proc 文件 系统 中 的 inode number, 


zhi@zhi-ubuntu:/git repo/linux$ ls -l /proc/$$/ns 























total 0 
lrwxrwxrwx 1 zhi zhi 
lrwxrwxrwx 1 zhi zhi 
lrwxrwxrwx 1 zhi zhi 
lrwxrwxrwx 1 zhi zhi 
lrwxrwxrwx 1 zhi zhi 
lrwxrwxrwx 1 zhi zhi 
每 行 结尾 
定 进程 的 命名 
这 里 获得 。 











/proc/[pid]/fuid map,gid map,projid map] F 
个 数 : first. lower first, count. first 为 呈现 给 用 户 


空间 的 id, count 为 数量 。 












































的 却 是 上 


层 











户 接 口中 使 用 
户 命 名 空间 

名 空间 中 不 能 做 映射 ; 
修改 自己 所 属 的 

















PREX 


20.4 系统 调用 


20.4.1 clone 








Cc € C O O O 

















系统 调用 
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clone 














Apr 
Apr 
Apr 
Apr 
Apr 
Apr 





co oco OOo OO OO CO 


空间 。 但 是 更 多 的 信息 ， 比 如 命名 


10:41 ipc -> ipc:[4026531839] 
10:41 mnt -> mnt:[4026531840] 
10:41 net -> net:[4026531962] 
10:41 pid -> pid:[4026531836] 
10:41 user => user:[4026531837] 
10:41 uts -» uts:[4026531838] 


那个 很 大 的 整数 就 是 命名 空间 对 应 的 proc 文件 系统 的 inode 号 ， 这 个 数字 可 以 确 
空间 的 层次 关系 ， 命 名 



































二 是 写 文件 的 进程 的 用 户 命 
间 ， 或 者 是 它 的 父 空间 。 也 就 是 说 ， 进程 可 以 修 BH 
SEAI JLT” E 


早已 有 之 。 为 了 支持 命名 空间 ， 内 核 
展 了 六 个 标志 位 : CLONE NEWNS、CLONE NEWUTS、CLONE NEWIPC、CLONE NEWUSER、 











RERUM E 
态 进 程 的 id, lower first 为 上 一 
前 面 提 到 在 内 核 数据 结构 中 存储 的 是 唯一 的 内 核 中 的 id, 但 在 这 里 用 
户 命 名 空间 的 id。 对 这 三 个 文件 的 写 操 作 有 两 个 限制 。 
中 的 uid map. gid map. projid map 这 三 个 文件 不 能 写 。 道 理 很 简单 ， 在 根 用 户 命 




















空间 中 的 内 容 ， 不 能 从 





间 ， 格 式 为 一 行 或 多 行 ， 每 行 三 
HP 














E 









































是 根 用 



























































A 














间或 者 就 是 此 文件 所 对 应 的 用 户 命名 空 














己 所 属 的 用 户 命名 空 
间 中 的 id 映射 。 





间 中 的 id 映射 ， 或 者 

















发 人 员 在 clone 的 第 一 个 参数 flags 中 扩 





A 
T 


& 20 3$ namespace 





CLONE NEWPID. CLONE _NEWNET。 挂 载 命 名 空间 



































使 用 的 标志 位 是 CLONE NEWNS， 从 名 字 


可 以 看 出 挂 载 命 名 空间 出 现 最 早 。 开 发 者 的 初衷 似乎 是 只 要 一 个 挂 载 命 名 空间 就 足够 了 。 
系统 调用 clone 的 原型 如 下 : 

















struct pt regs *regs); 








进程 使 用 系统 调 














long clone(unsigned long flags, void *child stack, void *ptid 
































多 个 置 位 ， 新 创建 的 进程 就 会 有 相应 的 新 的 命名 空间 。 









































T 








创建 新 命名 空间 意味 着 在 新 的 命名 空间 中 进行 操作 不 会 影响 到 老 的 命名 空间 。 但 值得 
的 是 新 命名 空间 的 初始 值 因 命 名 空间 种 类 不 同 而 不 同 。 挂 载 命名 空间 和 UNIX 分 时 系统 命名 
间 的 初始 值 是 老 命 名 空间 的 值 。 进 程 间 通 信 命 名 空间 和 网 络 命名 空间 的 初始 值 是 空 值 。 进 程 




















, Void *ctid, 


] clone 创建 新 进程 ， 如 果 clone 的 flags 参数 的 这 六 个 标志 位 中 的 一 个 或 







































































命名 空间 和 用 户 命名 
20.4.2 unshare 

















D 4 





qu Hoe 


























空间 的 初始 值 也 是 空 值 ， 但 是 额外 标记 了 和 老 命 名 空间 的 父子 关系 。 


























系统 调用 unshare 也 不 是 专 为 命名 空间 而 设 ， 它 还 做 分 离 文件 描述 符 之 类 的 




















int unshare(int flags) 


E] clone 相似 ， 为 了 支持 命名 空间 ， 内 核 玫 








工作 。 


F 发 人 员 在 参数 flags 中 扩展 了 六 个 标志 位 : 


CLONE NEWNS、~ CLONE NEWUTS CLONE NEWIPC、~ CLONE NEWUSER、 CLONE. 
NEWPID. CLONE NEWNET. 


20.4.3 setns 














系统 调用 setns 是 专 为 命名 空间 而 设 的 。 











int setns(int fd, int nstype); 


fd 是 一 个 文件 描述 符 ， 对 应 于 /proc/pidns/ 下 的 一 个 文件 〈 除 user 7 
对 应 的 命名 空间 的 




































































h), nstype 是 此 文件 所 
类 型 。 实 际 调用 中 ，nstype 可 以 是 0， 这 样 就 完全 由 fd 确定 要 操作 的 命名 空 














间 的 类 型 ， 如 果 不 是 0， 它 必须 和 fd 所 确定 的 命名 空间 的 类 型 吻合 。 调 用 的 目的 是 将 调用 者 的 
命名 空间 置 为 /proc/pidms 下 的 文件 所 对 应 的 命名 空间 。 值 得 注意 的 是 用 户 命名 空间 不 能 通过 此 





系统 调用 改变 。 


20.0 i£ 


































































































fig A ETRURIAE AS TEH 
核 的 情况 下 ， 不 同 容器 的 进程 之 间 不 要 互相 影响 ， 最 好 是 感知 不 到 容器 外 的 世界 。 
在 一 个 内 核 上 面 分 隔 出 多 个 用 户 态 空间 ， 这 必然 困难 重重 ， 尤 其 是 在 Linux 这 种 宏 内 核 




















日 是 隔离 。 而 隔离 是 容器 的 基本 需求 。 容 器 所 需 的 隔离 是 在 共用 一 个 内 





















































(monolithic) 架构 之 上 。 命 名 空间 是 一 种 量力 而 行 的 努力 。 这 种 努力 成 功 了 ， 有 了 命名 空间 ， 
Linux 容器 得 以 实现 。 


客观 地 说 ， 命 名 空间 的 隔离 是 不 彻底 的 ， 主 要 体现 在 两 个 方面 : 首先 ， 这 利 












































隔离 是 浅 层次 
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的 隔离 。 以 文件 系统 为 例 ， 挂 载 只 是 文件 系统 的 一 个 组 件 ， 更 深层 次 的 组 件 ， 比 如 文件 ， 并 没 
有 命名 空间 相关 联 。 其 次 ， 这 种 隔离 是 片面 的 隔离 。Linux 内 核 所 包含 的 模块 极 多 ， 区 区 六 个 
命名 空间 根本 不 足以 提供 全 部 隔离 。 

Linux 命名 空间 在 2008 年 即 已 成 型 。 随 后 虽然 仍 有 人 努力 开发 出 新 的 命名 空间 ， 但 都 不 为 
Linux 主线 所 接受 。Linux 主线 维护 人 员 的 理由 是 不 希望 Linux 内 核 过 于 复杂 。 实 际 上 ， 命 名 空 
间 的 开发 和 设计 只 能 是 量力 而 行 和 适可而止 ， 因 为 在 宏 内 核 上 理想 的 和 绝对 的 隔离 是 不 可 能 做 
到 的 ! 


20.6 ”参考 资料 















































































































































读者 可 参考 以 下 资料 ; 
https://Iwn.net/Articles/531114/ 


习题 


如 果 进 程 通过 setns 改变 了 自己 的 挂 载 命名 空间 , 但 是 保留 了 一 个 指向 新 挂 载 命 名 空间 之 外 
的 文件 描述 符 ， 那 么 进程 能 否 通过 这 个 文件 描述 符 访 问 新 挂 载 命 名 空间 之 外 的 文件 ? 
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21 简介 


21.1.1 一 种 安全 攻击 


UNIX 的 创始 人 之 一 Dennis Ritchie 在 1979 年 的 一 篇 论文 《On the Security of UNIX》 中 提 
到 这 样 一 种 攻击 : 











while :;do 
mkdir x 
cd x 
done 


MERE shell 脚本 会 让 系统 骨 溃 ， 原 因 或 者 是 耗 尽 所 有 人 硬盘 空间 或 者 是 耗 尽 文件 系统 的 
inode。 而 现在 的 硬盘 实在 是 太 大 了 ， 作 者 在 Linux. 上 实验 的 结果 是 ， 在 耗 尽 便 盘 资源 前 ， 另 一 
个 瓶颈 先 到 来 了 一 一 路 径 的 最 大 长 度 。 作 者 改写 了 程序 ; 









































dir _ bomb . sh 
$!/bin/bash 


i=0 

while : 

do 
find . -mindepth $i -maxdepth $i -exec mkdir -p {}/{1..1024} \; 
let i-i-*1 


done 








作者 实验 的 结果 是 耗 尽 了 文件 系统 的 inode 资源 。 再 看 一 下 下 面 这 个 耗 尽 系统 进程 号 数量 
资源 的 “fork bomb" 9. 





iol 





s up. osse & py ow 





这 是 极 简 形式 ， 改 造 一 下 ， 让 它 更 易 读 : 


bomb() { 
bomb | bomb & 
} 
bomb 
上 述 代码 的 目的 就 是 不 断 地 创建 新 进程 ， 直 到 耗 尽 系统 中 所 有 的 进程 号 资源 ， 让 系统 再 不 
能 创建 新 进程 。 





























C) J http://en.wikipedia.org/wiki/Fork bomb. 
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21.1.2 XÉ 





Dennis Ritchie Æ E Tff 
“UNIX 的 设计 到 








漏洞 。” 








其 实 不 只 是 UNIX， 大 多 数 系统 在 设计 之 初 都 没有 
展 过 程 中 ， 系 统 设计 者 以 不 同 的 方式 应 对 安全 带 来 的 挑战 ，UNIX tI 
J, UNIX 提供 了 配额 (quota) 机 制 。 为 了 限制 
其 他 资源 ，UNIX 提供 了 资源 限 





m 
对 人 硬盘 


ZM 








间 资 源 的 使 





同 的 问题 : 














d) 分 散 式 管理 。 
配额 机 制 提供 了 一 


























8 篇 论文 中 说 到 ; 
























































个 系统 调用 : 












































考虑 














安全 因 








念 和 有 具体 实现 都 没有 考虑 安全 ， 这 个 问题 本 身 就 导致 了 大 量 的 安全 








素 。 通 常 的 做 法 是 在 随后 的 






































ho A T IRH 
] 户 创建 的 进程 数量 以 
BJ (Resource Limit， 简 称 rlimit〉 机 制 。 但 是 这 两 种 机 制 都 有 相 








m 
X 








HJ! 
及 




















int quotactl(int cmd, const char *special, int id, caddr t addr); 





quotactl 可 以 打开 或 关闭 某 个 文件 系统 的 配额 管理 








额 值 。 配 额 数据 存储 在 单个 文件 系统 
的 配额 数据 。 配 额 机 




















所 的 分 散 性 还 不 明 
资源 限制 机 制 提 供 了 三 个 系统 调用 : 








中 ， 




















要 想 


显 ， 因 为 系统 中 挂 载 的 文件 系统 一 般 不 会 太 多 。 




















E， 可 以 查看 或 设置 某 个 用 户 /月 




















HJ 28 BS RC 


得 到 系统 全 貌 ， 需 要 汇总 系统 中 所 有 的 文件 系统 














int getrlimit(int resource, struct rlimit *rlim); 


int se 





int prlimi 


rlimit *old limit); 

















前 两 个 系统 调 





D H 


用 来 读 取 或 设置 调 























寺 有 的 系统 调用 。 




















程 不 是 调用 者 进程 ， 忆 

















分 散 式 管 

















的 ， 但 是 要 针对 某 一 类 进程 进行 设置 是 困难 的 。 查 
比如 查看 所 有 网 络 相关 进程 占 





是 困难 的 。 
总 数 。 








(2) 没有 统一 的 资源 管理 机 制 。 配额 有 








21.1.3 ”历史 


2006 年 Google 的 两 名 工程 师 Paul Menage 和 Rohit Seth A 
来 限制 和 统计 一 组 进程 的 资源 使 
为 Container 容易 引起 歧义 ,“Process Containers” 被 改名 为 “Control Groups", fij 


Containers” 的 模块 ， 















































































































































称 CGroups， 即 控制 组 。 

















ji. Bh 





il 


Ši 
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套 机 4 





B. vrüsDRG 


























JiS 





制 组 的 设计 理念 是 将 框架 和 具体 的 资源 管理 
续 又 有 多 个 具体 的 资源 管理 














用 者 进程 的 “rlimit”。 第 三 个 系统 调 
] 来 读 取 或 设置 菜 一 个 进程 的 “rlimit” 值 。 如 果 这 个 1 
pg 么 调用 者 进程 需要 拥有 能 力 CAP_SYS_RESOURCE。 
里 在 资源 限制 机 制 上 比较 明显 。 读 取 或 设置 单个 进程 的 “rlimit” 值 是 容易 
看 某 一 类 进程 的 资源 限 站 
和 的 内 存 ， 再 比如 碍 





HJ 


trlimit(int resource, const struct rlimit *rlim); 















































看 某 个 用 户 创 

















上 4 有 劝 一 套 机 人 制 。 


c 











t(pid t pid, int resource, const struct rlimit *new limit, struct 


“prlimit” 是 Linux 


参数 pid 制定 的 进 

















由 整体 状况 也 





建 的 进程 


F 发 了 一 个 名 为 “Process 
况 。2007 年 此 模块 被 纳入 Linux 


分 离 。 框 架 于 2007 年 进入 Linux 主线 2.6.24 
模块 进入 了 主线 。 
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21.1.4 用 法 举例 

Linux 内 核子 系统 cgroup 提供 的 用 户 态 和 内 核 的 接口 是 名 为 cgroup 的 伪 文 件 系统 。 下 面 看 
一 个 简单 的 使 用 CPU 子 模块 的 例子 。CPU 子 模块 涉及 进程 调度 。 
首先 需要 挂 载 CPU 模块 的 cgroup 文件 系统 : 









































root@zhi-ubuntu-tomoyo:/sys/fs#mount -t cgroup -ocpucgroup /sys/fs/cgroup/ 
root@zhi-ubuntu-tomoyo:/sys/fs# ls /sys/fs/cgroup 

cgroup.clone children cpu.cfs period us cpu.rt runtime us notify on release 
cgroup.event control cpu.cfs quota us cpu.shares release agent 
cgroup.procs cpu.rt period us cpu.stat tasks 








创建 两 个 子 目录 ， 代 表 两 个 控制 组 : 





root@zhi-ubuntu-tomoyo:/sys/fs# mkdir -p /sys/fs/cgroup/cgrpl 
root@zhi-ubuntu-tomoyo:/sys/fs# mkdir -p /sys/fs/cgroup/cgrp2 





作者 想 让 控制 组 1 获得 2/3 的 CPU 资源 ， 探 制 组 2 获得 1/3 的 CPU 资源 : 


root@zhi-ubuntu-tomoyo:/sys/fs# echo 2048 > /sys/fs/cgroup/cgrpl/cpu.shares 
root8zhi-ubuntu-tomoyo:/sys/fst echo 1024 > /sys/fs/cgroup/cgrp2/cpu.shares 


加 组 配置 好 了 ， 下 面 测试 它 。 写 一 个 简单 的 死 循 环 程序 : 


EN 





H% 


int main() { 
while (1) ; 
return 0; 
} 
运行 程序 两 次 : 


root8zhi-ubuntu-tomoyo:/sys/fst zhi/test cgroup & 


1] 18553 
root8zhi-ubuntu-tomoyo:/sys/fst zhi/test cgroup & 
2] 18555 


` 


一 个 进程 的 进程 号 是 18553， 另 一 个 是 18555。 现 在 把 第 一 个 放 入 控制 组 一 ， 即 cgrpl; 第 
二 个 放 入 控制 组 二 ， 即 cgrp2: 














root@zhi-ubuntu-tomoyo:/sys/fs# echo 18553 >/sys/fs/cgroup/cgrpl/cgroup.procs 
root@zhi-ubuntu-tomoyo:/sys/fs# echo 18555 > /sys/fs/cgroup/cgrp2/cgroup.procs 








最 后 看 一 下 CPU 资源 占用 情况 : 


























root@zhi-ubuntu-tomoyo:/sys/fs# top 
top - 10:32:21 up 19:41, 3 users, load average: 1.71, 0.81, 0.45 





PID USER PR NI VIRT RES SHR S $CPU $MEM TIME+ COMMAND 
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18553 root 20 0 1984 280 228 R 66.5 0.0 2:05.90 test cgroup 
18555 root 20 0 1984 284 228 R 33.1 0.0 0:27.37 test cgroup 
18556 zhi 20 0 2824 1108 860 R 0.3 0.1 0:00.16 top 



































top 的 输出 可 见 , 第 一 个 进程 占用 了 66.594] CPU, 近似 于 2/3; 第 二 个 进程 
的 CPU， 近似 于 1/3。 

















J] T 33.196 








In 











21.2 Z$ 


21.2.1 设计 原则 


在 没有 看 到 控制 组 原始 设计 文档 的 情况 下 ， 作 者 试 着 根据 代码 复原 一 下 控制 组 的 设计 
原则 : 

(1) 以 进程 为 控制 单位 

同一 个 用 户 运行 的 进程 可 能 是 计算 任务 进程 ， 可 能 是 网 络 传输 进程 ， 也 可 能 是 文件 读 写 操 
作 进程 。 如 果 以 用 户 或 用 户 组 为 单位 ， 就 很 难 根据 进程 的 实际 功能 进行 控制 。 

(D 集中 式 管理 
集中 式 管理 的 对 立 面 是 分 散 式 管理 。 文 件 的 属性 管理 就 是 一 种 分 散 式 管理 。 用 户 可 以 很 容 
易 地 查看 一 个 文件 的 属 主 是 谁 ， 但 是 要 想 查 出 某 个 用 户 拥 有 的 所 有 文件 ， 就 必须 遍历 整个 文件 
系统 ! 控制 组 的 集中 式 管理 是 指 管理 员 可 以 很 容易 地 了 解 到 控制 组 中 所 有 的 进程 的 相关 情况 。 

(3) 功能 模块 化 

计算 机 系统 的 资源 有 很 多 种 。 资 源 控制 模块 也 必然 不 止 一 种 。 首 先 应 该 允许 用 户 使 用 部 分 
资源 控制 模块 ， 其 次 应 该 让 开发 者 能 够 在 现 有 的 控制 组 框架 下 轻松 地 增加 新 资源 控制 模块 ， 而 
不 是 为 了 引入 新 的 功能 控制 而 另外 发 明 新 的 控制 架构 。 

(4) 动态 调配 
管理 员 可 以 在 运行 时 修改 控制 组 参数 ， 也 可 以 将 进程 动态 分 配给 控制 组 。 比 如 系统 中 有 4 
个 控制 组 : web 控制 组 、ftp 控制 组 、 优 质 客户 控制 组 、 善 通 客 户 控制 组 。 管 理 员 可 以 调 低 web 
控制 组 可 用 资源 ， 调 高 ftp 控制 组 可 用 资源 ， 也 可 以 将 某 个 客户 的 进程 组 从 普通 客户 控制 组 升 
级 到 优质 客户 控制 组 。 

(5) 层级 结构 

控制 组 应 该 支持 层级 结构 。 比 如 ， 系 统 有 2 个 控制 组 : web 控制 组 、ftp 控制 组 ，web fun 
分 得 网 络 带 宽 的 70%，ftp 控制 组 分 得 网 络 带宽 的 30%。 进 一 步 ， 管 理 员 又 可 以 在 web 4t 
下 创建 两 个 控制 组 : 虚拟 站 点 控制 组 1、 虚拟 站 点 控制 组 2， 虚拟 站 点 控制 组 1 的 网 络 带 宽 占 
比 为 60%， 虚 拟 站 点 控制 组 2 的 网 络 带 宽 占 比 为 40%。 于 是 虚拟 站 点 控制 组 1 实际 分 得 网 络 带 
宽 为 42%， 虚 拟 站 点 控制 组 2 实际 分 得 网 络 带 宽 28%。 

(60 多 对 多 映射 

一 个 进程 可 以 加 入 多 个 控制 组 ， 一 个 控制 组 可 以 包含 多 个 进程 。 由 于 资源 的 多 样 性 ， 用 一 
种 控制 方案 往往 难度 很 大 。 考 虑 下 面 这 个 应 用 场景 。 一 个 大 学 的 服务 器 ， 有 三 类 客户 : 管理 员 、 
ARE, FÆ: 有 三 类 网 络 服务 : www、NFS、 其 他 。 如 果 一 定 要 用 一 种 控制 方案 控制 所 有 资 
源 ， 那 就 会 产生 3X3=9 个 控制 组 。 如 果 分 开 ，cpu 和 memory 使 用 一 个 ，network 使 用 一 个 ， 
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那 就 只 有 6 个 控制 组 ， 结 构 也 清晰 很 多 ， 如 图 21-1 所 示 。 假 设 某 个 学 生 启 动 了 一 个 firefox 进 
程 ， 此 进程 就 会 被 加 入 “student” 和 “www” 两 个 控制 组 中 。 





























cpu/memory network 





























21.2.2 ”代码 分 析 
先 看 一 下 控制 组 在 代码 中 的 定义 : 











include/linux/cgroup.h 
struct cgroup { 


struct list head sibling; /* my parent's children */ 

struct list head children; /* my children */ 

struct cgroup *parent; /* my parent */ 

struct list head files; /* my files */ 

struct dentry *dentry; /* cgroup fs entry, RCU protected */ 


struct cgroupfs root *root; 


struct cgroup subsys state _ rcu *subsys[CGROUP SUBSYS COUNT]; 
struct list head cset links; 








}; 


上 述 代 人 码 并 不 是 cgroup 在 代码 中 原本 的 样子 。 作 者 对 cgroup 的 定义 进行 了 简化 ， 删 
除了 一 些 涉 及 细节 的 成 员 ， 调 整 了 一 些 成 员 的 位 置 。 调 整 后 的 代码 大 致 可 以 分 为 四 部 分 : 
第 一 部 分 涉及 cgroup 的 层级 结构 ， 包 括 三 个 成 员 : sibling. children. parent; 第 二 部 分 涉 
及 cgroup 和 名 为 cgroup 的 文件 系统 的 关系 ， 包 括 三 个 成 员 : files、dentry、root; 第 三 部 
分 涉及 控制 组 子 系统 ， 成 员 为 subsys; 第 四 部 分 涉及 cgroup 和 进程 的 关系 ， 成 员 为 
cset links. 

1. 控制 组 的 层级 结构 

假设 存在 这 样 一 棵 “控制 组 树 ” 根 节 点 有 两 个 儿子 , 第 一 个 儿子 又 有 两 个 儿子 。 那 么 cgroup 
机 构 中 相关 成 员 的 关系 就 如 图 21-2 所 示 。 

2. cgroup 文件 系统 

内 核 控 制 组 子 系统 创造 了 名 为 cgroup 的 伪 文件 系统 。 每 个 cgroup 都 和 此 文件 系统 中 的 一 
个 目录 相 联 系 。 结 构 cgroup 中 的 成 员 dentry 指向 与 之 相关 联 的 目录 ， 成 员 files 指向 目录 下 的 
文件 ， 成 员 root 指向 cgroup 文件 系统 的 根 节点 。 
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cgroup 
sibling 


~ children 


parent 


cgroup cgroup 


sibling 


children 


parent 


cgroup 


sibling 


children children 


^ 
parent ~- 











图 21-2 cgroup 层次 结构 





下 面 看 一 下 结构 cgroupfs root: 


include/linux/cgroup.h 





[0] 


truct cgroupfs root ( 


struct super block *sb; 
unsigned long subsys mask; 
struct cgroup top cgroup; 
int number of cgroups; 














il 


组 子 系统 ，number_of cgroups 表示 这 个 cgroup 文件 系统 中 包含 的 cgroup 的 数量 。 
控制 组 定义 了 一 个 新 的 文件 系统 ， 名 字 为 cgroup: 








kernel/cgroup.c 





static struct file system type cgroup fs type = { 
.name = "cgroup", 
.mount = cgroup mount, 
.kill sb = cgroup kill sb, 

}; 
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结构 中 最 重要 的 成 员 是 sb 和 top cgroupe sb 指向 文件 系统 的 超级 块 ，top_cgroup 是 一 棵 
cgroup 树 的 顶级 节点 。 其 他 成 员 中 ，subsys_mask 表示 这 个 cgroup 文件 系统 挂 载 中 包含 的 控 


| 
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下 面 看 一 个 例子 : 





root@ubuntu-desktop:~/git/linux-2.6# mount -t cgroup cgroup -o cpu 
/sys/fs/cgroup/cpu 

rootQ(ubuntu-desktop:-/git/linux-2.64 mount -t cgroup cgroup -o memory 
/sys/fs/cgroup/memory 


上 述 命 令 挂 载 了 两 个 cgroup 文件 系统 ， 一 个 使 用 CPU 子 系统 ， 一 个 使 用 memory 子 系统 。 
内 核 中 的 数据 结构 如 图 21-3 所 示 。 


cgroup_fs_type 


file system, type 


fs supers 






















































super block super block 


s instances S instances 
s fs info s fs info 


€ 和 


sb sb 
top. cgroup top cgroup 


图 21-3 cgroup 文件 系统 例子 


















3. 控制 组 的 子 系统 
制 组 子 系统 相关 的 数据 结构 为 ， 








Hi 


include/linux/cgroup.h 
struct cgroup subsys state { 
struct cgroup *cgroup; 


struct cgroup subsys *ss; 


struct cgroup subsys 1 

struct  cgroup subsys state  *(*css alloc) (struct  cgroup subsys state 
*parent css); 

int (*css online) (struct cgroup subsys state *css); 

void (*css offline) (struct cgroup subsys state *css); 

void (*css free) (struct cgroup subsys state *css); 

int (*can attach) (struct cgroup subsys state *css,struct cgroup taskset 
*tset); 

void (*cancel attach) (struct cgroup subsys state *Gss struct 
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cgroup taskset *tset); 

void (*attach) (struct cgroup subsys state *css, struct cgroup taskset 
*tset); 

void (*fork) (struct task struct *task); 

void (*exit) (struct cgroup subsys state *css, struct cgroup subsys state 
*old css, 

struct task struct *task); 
void (*bind) (struct cgroup subsys state *root css); 


struct list head cftsets; 





struct cftype *base cftypes; 





struct cftype set base cftset; 


}; 














NS 


结构 cgroup subsys state 是 一 个 “中 介 ” 介 于 结构 cgroup 和 结构 cgroup subsys 之 间 。 结 
KJ cgroup subsys 的 成 员 分 两 大 类 ， 一 类 是 一 系列 函数 指针 ， 另 一 类 关联 cgroup 文件 一 一 cftype 
实例 。 

不 同 的 控制 组 子 系统 关联 的 文件 各 有 不 同 ， 还 是 看 CPU 子 系统 的 例子 : 





























kernel/sched/core.c 
static struct cftype cpu files[] = { 
#ifdef CONFIG FAIR GROUP SCHED 


{ 





.name = "shares", 
.read u64 = cpu shares read u64, 


.write u64 = cpu shares write u64, 





), 
#endif 
#ifdef CONFIG CFS BANDWIDTH 
{ 
.name = "cfs quota us", 


.read s64 = cpu cfs quota read s64, 





.write s64 = cpu cfs quota write s64, 





.name = "cfs period us", 


.read u64 = cpu cfs period read u64, 





.write u64 = cpu cfs period write u64, 





.name = "stat", 
.Seq show = cpu stats show, 
), 
#endif 
#ifdef CONFIG RT GROUP SCHI 





[5a] 
Iw) 
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{ 
.name = "rt runtime us", 
.read s64 = cpu rt runtime read, 
.write s64 - cpu rt runtime write, 
), 
1 
.name = "rt period us", 
.read u64 = cpu rt period read uint, 
.write u64 = cpu rt period write uint, 
), 
tendif 
() /* terminate */ 
}; 
目前 Linux 内 核 (3.14-re4)〉 中 包含 下 面 这 些 cgroup 子 系统 : 
® cpuset 
€ debug 
9 cpu cgroup 
€ cpuacct 
€ mem cgroup 
€ devices 
€ íreezer 
9 net cls 
€ blkio 
€ perf 
€ net prio 
€ hugetlb 
4. 控制 组 与 进程 的 关系 
控制 组 和 进程 的 关系 是 多 对 多 上 映射。 一 个 控制 组 中 可 以 有 多 个 进程 ， 一 个 进程 也 可 以 加 入 
多 个 控制 组 。 
假设 有 3 个 进程 ，4 个 控制 组 ， 进 程 1 用 到 控制 组 1 和 3， 进程 2 用 到 控制 组 2 和 4， 
进程 3 用 到 控制 组 2 和 4。 从 进程 的 角度 看 , 如 图 21-4 所 示 。 从 控制 组 的 角度 看 , 如 图 21-5 
所 示 。 
cgroupl cgroup2 cgroup3 cgroup4 
process 1 process 2 process 3 
| I d d / 
上 E hc e / 
| , m c eS 204 
cgroupl X cgroup2 cgroup 3 cgroup 4 process 1 process 2 process 3 
图 21-4 ”控制 组 和 进程 关系 (从 进程 的 角度 看 ) 图 21-5 控制 组 和 进程 关系 (从 控制 组 的 角度 看 ) 
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为 了 表达 这 种 多 对 多 映射 关系 ， 控 


ET 








剖 组 系统 引入 了 一 个 数据 结构 css. set: 


include/linux/cgroup.h 
struct css set 1 


struct list head tasks; 
struct list head cgrp links; 


}; 


在 进程 控制 结构 task struct 中 ， 引 入 了 : 











include/linux/sched.h 
struct task struct { 


#ifdef CONFIG CGROUPS 
/* Control Group info protected by css set lock */ 
Struct css set rcu *cgroups; 
/* cg list protected by css set lock and tsk-»alloc lock */ 
struct list head cg list; 
#endif 





在 结构 cgroup 中 有 : 

















include/linux/cgroup.h 
struct cgroup + 


struct list head cset links; 








结构 cgroup 的 成 员 cset links 和 另 一 个 结构 cgrp cset link 关联 : 


kernel/cgroup.c 

struct cgrp cset link { 
/* the cgroup and css set this link associates */ 
struct cgroup *cgrp; 
struct css set *OSet: 


/* list of cgrp cset links anchored at cgrp-»cset links */ 
struct list head cset link; 


/* list of cgrp cset links anchored at css set-»cgrp links */ 
struct list head cgrp link; 
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联系 在 一 起 ， 还 是 上 面 那 个 例子 ， 内 核 中 的 数据 结构 如 图 21-6 所 示 。 
process 1 process 2 process 3 
,| Sgroups cgroups |-、 egroups | 一 ~、 
,/ J cg list cg list 7-7 X7 -- cg list X 
D A l Y 
14 ! | 1 
V X 1 1 
全 IN T Ph 
l Eo hs N / 
\ EN Sa 3 NV 2^ 
N » css setl ~、 Se A css_set 2 Eid 5e 
a a 7s PES 大 ^« 
£ N 1 E: Tu 1 s 
^ | tasks I *- ; ^", tasks I N 
# 
/ L cgrp links ! Nc ! 1 cgrp links ! Y 
/ I 上 \ 
I Qe ECT E EE rdc SES ! 
N 
1 / \ P er ! 
1 Z 1 k X 1 
pow | 1 7/ i 
A l Mu 1 
V7 i Y \ 
ki cgrp cset link 1 cgrp cset link 2. 3X cgrp cset link 3 n cgrp cset link 4 
3  p-------- 1 p-------- 1 \\、 p-------- NV SIE a 
S d- cgrp ! j^cgm / M ` j- cgrp p MIS Sanoi 
3 A D cset | /1 eset 1 ~ n cset f 1 cset n 
; N 
^/ — v cset link ! ^ y cset link | // bor cset link ! | eset link w, N 
P S 1 / 4 1 1 1 ` \ 
/Negplink --L- -/- %4 >=egrp_link | i PA A cgrp - lk --+--- gtp link 人 \ 
"an cic ; Be TRUE jp rutrum ON 
i / EF 1 / 1 i 
1 ! 1 bog ! 1 
j I 1 1 1 ! ! 
O. 1 ji Foo 
i X b ba d 1 
\ bog 2 1 
b Y X ^ d 
H ES Yoox 2* 4 
y N E ^ 
cgroup 1 cgroup 3 N cgroup 2 cgroup4 4 
图 21-6 控制 组 和 进程 关系 (联系 在 一 起 ) 
为 了 画图 方便 ， 作 者 将 cgroup2 和 cgroup3 的 位 置 互 换 了 一 ” 
* * 
21.3” 伪 文件 系统 
作为 内 核 中 的 一 员 ， 控 制 组 子 系统 需要 提供 接口 给 用 户 态 。 有 两 个 选择 ， 一 个 是 提供 系统 




























































































调用 ， 男 一 个 是 提供 伪 文 件 系 统 。 控 制 组 选择 了 后 者 ， 它 提供 了 一 种 新 的 名 为 cgroup 的 文件 
系统 。 
和 所 有 文件 系统 一 样 ，cgroup 文件 系统 需要 先 挂 载 。 用 户 通 过 mount 命令 的 “-0” 选 项 告诉 
内 核 这 次 挂 载 的 cgroup 文件 系统 包含 哪些 子 系 统 。 例 如 : 
mount -t cgroup -ocpu cgroup /sys/fs/cgroup/cpu/ 
述 命令 表示 挂 载 一 个 包含 CPU 子 系统 的 cgroup 文件 系统 。 用 户 还 可 以 用 “,” 分 隔 多 个 
E 例如 : 


上 述 命 


mount -t cgroup -ocpuset,devices cgroup /sys/fs/cgroup/cpuset-dev 














个 包含 








令 表示 用 户 挂 载 一 cpuset 和 devices 的 cgroup 文件 系统 。 
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cgroup 文件 系统 的 一 个 特点 是 用 户 可 以 同时 挂 载 多 个 cgroup 文件 系统 ， 但 是 要 保证 每 个 
cgroup 文件 系统 用 到 的 子 系统 没有 重 登 。 也 就 是 说 ， 如 果 已 经 有 一 个 cgroup 文件 系统 的 挂 载 包 
含 了 某 一 个 子 系统 , 那么 就 不 能 再 有 cgroup 文件 系统 的 挂 载 包含 这 个 子 系统 。 下 面 是 在 Ubuntu 
14.04 上 的 cgroup 文件 系统 挂 载 情况 : 







































































zhi8zhi-ubuntu:-$ mount 

cgroup on /sys/fs/cgroup/cpuset type cgroup (rw,relatime,cpuset) 
cgroup on /sys/fs/cgroup/cpu type cgroup (rw,relatime,cpu) 

cgroup on /sys/fs/cgroup/cpuacct type cgroup (rw,relatime,cpuacct) 
cgroup on /sys/fs/cgroup/memory type cgroup (rw,relatime,memory) 





cgroup on /sys/fs/cgroup/devices type cgroup (rw,relatime,devices) 
cgroup on /sys/fs/cgroup/freezer type cgroup (rw,relatime,freezer) 





cgroup on /sys/fs/cgroup/blkio type cgroup (rw,relatime,blkio) 
cgroup on /sys/fs/cgroup/perf event type cgroup (rw,relatime,perf event) 














cgroup on /sys/fs/cgroup/hugetlb type cgroup (rw,relatime,hugetlb) 


Ubuntu 的 做 法 是 每 一 个 cgroup 文件 系统 的 挂 载 只 包含 一 个 子 系统 。 
假设 执行 下 列 命令 挂 载 了 包含 CPU 子 系统 的 cgroup 文件 系统 : 








mount -t cgroup -ocpu cgroup /sys/fs/cgroup/cpu/ 





下 面 看 一 下 挂 载 在 /sys/fs/cgroup/cpu 下 的 cgroup 文件 系统 中 的 内 容 : 





zhiGzhi-ubuntu:-$ ls -1 /sys/fs/cgroup/cpu 


total 0 

-rw-r--r-- 1 root root 0 Jan 25 08:15 cgroup.clone children 
-rw-r--r-- 1 root root 0 Jan 25 08:15 cgroup.procs 
-r--r--r-- 1 root root 0 Jan 25 08:15 cgroup.sane behavior 
-rw-r--r-- 1 root root 0 Jan 25 08:15 cpu.cfs period us 
-rw-r--r-- 1 root root 0 Jan 25 08:15 cpu.cfs quota us 
-rw-r--r-- 1 root root 0 Jan 25 08:15 cpu.shares 
-r--r--r-- ] root root 0 Jan 25 08:15 cpu.stat 

drwxr-xr-x1l root root 0 Jan 25 10:53 machine 

-rw-r--r-- 1 root root 0 Jan 25 08:15 notify on release 
-rw-r--r-- 1 root root 0 Jan 25 08:15 release agent 
-rw-r--r-- 1 root root 0 Jan 25 08:15 tasks 

















drwxr-xr-x1 root root 0 Jan 25 08:15 user 


上 述 内 容 可 以 粗略 分 为 三 类 : 第 一 类 是 目录 , TE cgroup 文件 系统 中 目录 对 应 一 个 具体 的 控 
制 组 ,第 二 类 是 以 “cgroup.” 为 前 级 的 文件 和 三 个 无 前 级 文件 : notify on release. release agent. 
tasks， 这 些 文件 是 通用 文件 ， 每 个 cgroup 文件 系统 挂 载 中 都 会 出 现 ， 无论 挂 载 选 项 指定 使 用 哪 
个 或 哪些 子 系统 。 第 三 类 是 子 系统 专 有 文件 ， 这 些 文 件 是 配置 子 系统 的 接口 ， 子 系统 不 同 ， 文 
件 也 不 同 。 在 上 面 的 例子 中 ， 控 制 组 CPU 子 系统 的 专 有 文件 以 “cpu.” 为 前 级 。 

在 cgroup 文件 系统 中 创建 一 个 目录 就 是 创建 一 个 控制 组 , 删除 一 个 目录 就 是 删除 一 个 控制 
组 。 创 建 目录 后 ， 目 录 下 会 自动 产生 许多 文件 。 在 cgroup 文件 系统 的 根 目录 下 (在 上 面 的 例子 
中 是 /sys/fs/cgroup/cpu) 的 大 多 数 文件 都 会 出 现在 cgroup 文件 系统 的 下 级 目录 中 ， 除 了 少数 在 
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代码 实现 中 标记 为 只 在 根 目录 中 出 现 的 文件 ， 例 如 cgroup.sane_behavior。 

各 个 子 系统 的 专 有 文件 比较 琐碎 ， 这 里 就 不 介绍 了 。 下 面 介绍 一 下 cgroup 文件 系统 的 通用 
文件 。 

C1) cgroup.procs 

此 文件 的 内 容 和 控制 组 中 所 有 进程 的 进程 号 关联 。 这 里 的 进程 号 实际 上 是 线程 组 号 (thread 
group ID )。 向 这 个 文件 写 入 一 个 线程 组 号 ， 就 会 把 整个 线程 组 中 的 线程 都 加 入 此 文件 所 属 的 控 
制 组 。 

(2) cgroup.clone children 

这 个 文件 和 一 个 标志 关联 ， 而 此 标志 只 被 cpuset 子 系统 使 用 。 当 此 标志 为 1 时 ， 创 建新 的 
^H X cpuset 的 cgroup HF, F cgroup 从 父 cgroup 中 复制 cpuset 配置 。 

(3) cgroup.sane behavior 

显示 cgroup 文件 系统 的 sane behavior 的 状态 。 随 着 内 核 控 制 组 子 系统 的 开发 ， 一 些 旧 的 
做 法 不 再 合适 ， 但 是 为 了 兼容 旧 的 应 用 又 不 好 完全 清除 。 于 是 开发 者 提供 了 一 个 选项 
“_ DEVEL _sane_behavior”， 供 挂 载 时 使 用 。 如 果 有 这 个 挂 载 选 项 ， 老 旧 的 不 合适 的 代码 逻辑 
就 不 会 出 现 ，tasks、notify on release. release agent 这 三 个 文件 也 不 会 出 现 。 

(4) tasks 
日 机 制 ， 尽 量 不 要 使 用 。 此 文件 关联 控制 组 中 所 有 线程 的 线程 号 。 
(5) notify on release 
日 机 制 ， 尽 量 不 要 使 用 。 通 过 它 来 存 取 notify on release 标志 。 当 此 标志 为 1 时 , TE cgroup 
退出 时 ， 内 核 要 通知 用 户 态 。 所 谓 退 出 是 指 此 cgroup 不 再 有 进程 ， 也 不 再 有 子 cgroup。 
(6) release agent 
日 机 制 ， 尽 量 不 要 使 用 。 此 文件 中 存 有 一 个 路 径 ， 当 内 核 需 要 通知 用 户 态 cgroup 退出 事件 
时 ， 内 核 运行 此 路 径 所 指 的 可 执行 文件 。 
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控制 组 的 组 指 的 是 一 组 进程 。 如 果 不 做 干预 ， 进 程 创建 的 子 进程 会 被 自动 加 入 到 进程 所 在 
的 控制 组 之 中 。 控 制 组 的 优点 是 可 以 针对 一 组 数量 不 定 的 进程 进行 控制 和 统计 。 

其 实在 控制 组 出 现 之 前 内 核 就 有 一 些 机 制 用 于 资源 控制 ， 如 “资源 限制 ” 又 如 与 控制 组 
cpuset 子 系统 功能 类 似 的 系统 调用 sched setaffinity 和 sched getaffinity. 

控制 组 没有 增加 新 的 系统 调用 ,而 是 实现 了 一 种 新 的 文件 系统 cgroup。 有 了 cgroup 文件 系 
统 ， 创 建 和 删除 控制 组 就 转化 为 创建 和 删除 目录 ， 查 看 资源 使 用 情况 和 调整 参数 就 转化 为 读 写 
文件 。 相 比 系统 调用 ， 操 作文 件 无 疑 更 加 方便 。 

下 面 简单 介绍 一 下 现存 的 各 个 cgroup TR: 

(1) cpuset 子 系统 用 来 管理 控制 组 中 的 进程 可 以 使 用 的 CPU 和 内 存 。 大 型 计算 机 系统 有 很 
多 CPU 和 内 存 节 点 ， 配 置 进 程 使 用 哪些 CPU 和 内 存 节 点 对 效率 有 很 大 影响 。 

(2) debug 子 系统 用 来 调试 控制 组 系统 本 身 。 在 cgroup 文件 系统 中 ，debug 子 系统 放置 了 
若干 伪 文 件 ， 通 过 这 些 伪 文 件 ， 用 户 可 以 查看 进程 中 和 控制 组 相关 的 数据 。 

G) cpu 子 系统 涉及 进程 调度 ， 用 来 调整 进程 可 获得 的 CPU 时 间 。 

(4) cpuacct 子 系统 用 来 统计 进程 已 经 使 用 的 CPU 时 间 。 











N 
























































































































































































































































































































































231 


Linux [4E Zc BEER A ST 
































(5) mem 子 系 统 涉及 内 存 管理 。mem 子 系统 兼顾 了 管理 和 统计 两 项 功能 。 在 cgroup 文件 
系统 中 ，mem 子 系统 放置 了 若干 文件 ， 有 些 用 来 显示 控制 组 中 进程 的 内 存 使 用 情况 ， 有 些 用 来 
控制 进程 的 内 存 使 用 上 限 。 

(6) devices 子 系统 涉及 设备 的 访问 控制 。 用 户 通 过 它 可 以 规定 进程 组 中 进程 可 以 使 用 哪些 
设备 ， 不 可 以 使 用 哪些 设备 。 

C7) freezer 子 系 统 用 于 暂停 (freeze〉 和 恢复 (thaw) 进程 。 

(8) net cls 子 系统 用 于 给 进程 所 产生 的 套 接 字 赋予 标签 。net_cls 并 不 涉及 使 用 标签 ， 标 签 
的 使 用 由 其 他 内 核子 系统 如 netfilter 规定 。 

(9) blkio 子 系统 涉及 块 设备 输入 输出 限制 ， 它 可 以 设置 进程 的 块 设备 VO 调度 优先 级 。 

(10) perf event 子 系统 与 内 核子 系统 perf 相关 。perf 子 系统 用 来 设置 进程 的 性 能 监测 。 在 
perf event HEH F, perf 子 系统 可 以 针对 控制 组 进行 性 能 监测 。 

(1D) net prio 子 系统 用 来 设置 进程 的 网 络 优先 级 。 

(12) hugetlb 子 系统 用 来 设置 hugeTLB 参数 ， 查 看 hugeTLB 使 用 状况 。TLB 是 Translation 
Lookaside Buffer 的 缩写 ， 是 内 存 管理 硬件 用 来 提高 虚拟 内 存 地 址 翻译 速度 的 缓存 。 


21.5 参考 资料 
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读者 可 参考 以 下 资料 : 


Documentation/cgroups/cgroups.txt 
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224 简介 
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seccomp 是 





seccomp 

















secure computing mode” 的 简称 。 最 初 的 seccomp 用 于 在 网 格 计算 (grid 











computing) 中 运行 不 可 信 的 计算 任务 。2005 年 3 H, seccomp 很 幸运 地 被 Linux 2.6.12 主线 接 
纳 。 在 随后 的 岁月 里 ， 似 乎 seccomp 这 个 内 核 特 性 的 唯一 使 用 者 是 Andrea Arcangeli 发 起 并 维 



















































































用 seccomp 构建 Chrome 沙 箱 。 




















护 的 cpushare( 一 个 网 格 计 算 应 用 )。Linus Torvalds 7E 2009 年 2 月 向 Linux 邮件 列表 中 发 出 一 
封 邮件 询问 是 否 真 的 还 有 人 使 用 seccomp。 令 人 意外 的 是 ，Google 的 工程 师 回复 说 Google 正在 



































seccomp 是 内 核 的 一 个 安全 特性 。 它 的 原理 是 限制 用 户 态 进程 可 以 使 用 的 系统 调用 。seccomp 
最 初 的 版 本 提供 机 制 让 用 户 态 进程 “ 单 向 地 ”进入 限制 模式 ， 所 谓 单 向 是 指 进入 了 限制 模式 就 不 


















































能 再 返回 正常 模式 。 在 限制 模式 里 进程 只 能 调用 4 个 系统 调用 : read、write、exit、sigreturn。 没 








有 open， 意 味 着 进程 只 能 操作 已 有 的 文件 描述 
这 么 看 ， 倒 是 挺 适 合 网 格 计 算 的 ， 通 过 read 获 













































































符 ， 除 了 读 写 之 外 ， 进 程 能 做 的 就 上 只 剩 下 退出 了 。 
取 指 令 ， 计算 ， 通过 write 写 回 结果 。 








最 初 的 只 能 使 用 4 个 系统 调用 的 方式 被 称 为 seccomp 的 strict 模式 。 后 来 seccomp 扩展 了 一 




























































































种 filter 模式 ,在 此 模式 下 ， 用户 态 进程 可 以 配置 可 用 的 系统 调用 ， 既 可 以 配置 哪些 系统 调用 可 





以 被 调用 ， 还 可 以 配置 在 调用 系统 调用 时 有 什么 样 的 参数 是 允许 的 。 
前 面 提 到 seccomp 被 用 于 构建 沙 箱 。 沙 箱 是 什么 呢 ? 在 计算 机 领域 ， 沙 箱 是 用 来 隔离 未 经 






























































检验 的 软件 或 者 不 可 信 的 软件 的 机 制 。 沙 箱 提 供 有 限 资源 给 沙 箱 中 的 软件 ， 对 沙 箱 中 的 软件 实 





施 隔离 ， 防 止 它 对 沙 箱 外 产生 影响 。seccomp 


打 个 比方 ， 沙 箱 就 好 比 监狱 。 怎 么 让 犯人 不 能 逃 出 监狱 呢 ? 手 段 可 以 是 给 犯人 戴 上 脚 包 ， 限 制 











是 实现 沙 箱 的 一 个 可 选手 段 ， 它 并 不 等 同 于 沙 箱 。 

















他 的 运动 能 力 ， 还 可 以 给 犯人 戴 上 眼罩 ， 限 制 他 的 视觉 能 力 …… seccomp 限制 进程 可 以 调用 的 系 
统 调 用 ， 本 质 上 也 是 限制 进程 的 能 力 。 但 是 ， 限 制 了 某 些 能 力 就 能 杜绝 犯人 逃 出 监狱 吗 ? 未 必 。 


























22.2 ”架构 


22.2.1 ”进程 数据 结构 


内 核 以 进程 /线程 为 单位 实施 seccomp £5 
了 一 个 数据 成 员 seccomp: 


include/linux/sched.h 
struct task struct 1 


struct seccomp seccomp; 




















B, DrELTEXEREIS o0 dS £5 EJ task. struct 中 加 入 


Linux 内 核 安全 模块 深入 剖析 





} 
seccomp 的 定义 很 简单 : 


include/linux/seccomp.h 
struct seccomp { 

int mode; 

struct seccomp filter *filter; 
}; 


22.2.2 ”模式 


在 seccomp 结构 体 中 的 mode 的 取 值 有 三 个 : SECCOMP MODE DISABLED、SECCOMP 
MODE STRICT、 SECCOMP MODE FILTER 。 SECCOMP MODE DISABLED 的 意思 是 
seccomp 不 起 作用 ， 进 程 可 以 无 限制 地 调用 系统 调用 。 在 SECCOMP MODE STRICT 模式 下 ， 

进程 只 能 使 用 4 个 系统 调用 : read、write、exit、sigreturn。 在 SECCOMP MODE FILTER 模式 
下 ， 对 系统 调用 的 限制 被 存 入 seccomp 结构 体 的 第 二 个 成 员 filter 之 中 ， 根 据 filter 决定 系统 调 
用 可 否 被 使 用 。 


222.3 ”内 核 中 的 虚拟 机 


secomp 的 strict 模式 的 优点 是 简单 ， 限 制 得 也 很 彻底 。 它 的 缺点 是 : 
(1) 允许 的 系统 调用 太 少 。 
(2) 不 能 对 系统 调用 的 参数 进行 限制 ， 比 如 只 允许 write 标准 输出 而 不 允许 write 其 他 文件 。 
在 seccomp 的 后 续 开 发 中 ,出 现 了 几 个 扩展 方案 。 在 多 个 扩展 方案 中 ，BPF 方案 胜出 。BPF 
是 Berkeley Packet Filter 的 缩写 。 此 方案 增加 了 一 个 模式 : SECCOMP MODE _ FILTER， 并 在 结 
构 体 seccomp 中 增加 了 一 个 类 型 为 seccomp filter 的 成 员 filter。 

下 面 看 一 下 seccomp filter: 



















































































































































































kernel/seccomp.c 





struct seccomp filter { 
atomic t usage; 
struct seccomp filter *prev; 
unsigned short len; /* Instruction count */ 
struct sock filter insns[]; 
}; 


usage 是 一 个 引用 计数 。prev 用 于 将 filter ERIEK. len 表示 后 边 数 组 insns 的 长 度 。 数 组 
insns 存储 的 是 filter 指令 。 因 为 seccomp 规定 filter 一 旦 建立 就 不 允许 修改 , 包括 添加 新 的 filter 
指令 , 所 以 后 续 要 增加 新 的 filter 指令 时 , 就 要 建立 一 个 新 的 类 型 为 seccomp filter 的 filter 实例 ， 
] 其 成 员 prev 将 旧 的 filter 串 起 来 。 
关键 的 数据 结构 是 sock filter， 用 于 网 络 系统 的 过 滤 。 在 引入 seccomp 的 filter 模式 之 前 ， 内 核 中 
己 经 有 用 于 网 络 包 过 滤 的 sock filter; seccomp 的 filter 模式 利用 了 现成 的 机 制 ; 




















































































































include/uapi/linux/filter.h 


234 


第 22 3$ seccomp 








struct sock filter { 


/* Filter block */ 


. ul6 code;  /* Actual filter code */ 


. u8 jts /* Jump true */ 
. u8 j£; /* Jump false */ 
US2, xk /* Generic multiuse field */ 


}; 


sock_filter 规定 了 一 利 
算 机 上 , 称 为 BPF 虚拟 机 。 这 个 BPF 虚拟 机 有 























FP 指令 结构 ， 有 代码 、 跳 转 和 立即 数 。 这 利 

















指令 运行 在 一 个 虚拟 的 计 
个 累加 器 (accumulator ), 一 个 索引 寄存 器 (index 





register), 大 小 为 16X32bit 的 内 存 (Scratch Memory Store) 和 一 个 不 可 见 的 程序 计数 器 (program 


counter)。 说 它 是 虚拟 机 ， 不 如 说 它 是 伪 机 (Pseudo Machine). [A 




















为 它 的 某 些 指令 要 取 网 络 包 


头 或 者 系统 调用 号 之 类 的 数据 ， 这 些 东西 不 在 它 那 可 怜 的 16x32bit 内 存 中。 不 管 怎么 说 ， 这 


种 指令 系统 十 分 简单 ， 通 过 它 可 以 比较 容易 地 定义 过 滤 条 件 。 下 面 介 











(D 加载 指令 

将 数据 加 载 到 累加 器 或 索引 寄存 器 。 数 据 来 源 可 以 是 立即 数 〈sock filter 结构 体 中 的 IO. 
网 络 包 、 网 络 包 长 度 、 内 存 CScratch Memory Store)、 系 统 调 用 号 、 系 统 调 用 的 参数 等 。 

(2) 存储 指令 





将 累加 器 或 索引 寄存 器 中 的 数据 存 入 内 存 (Scratch Memory Store). 





G) 算术 和 逻辑 指令 
对 累加 器 中 的 数据 执行 算术 或 旭 辑 运算 ， 运 算 结果 存 回 累加 器 ， 运 算 参数 来 自 索 引 寄 存 器 





或 立即 数 。 











(4) 跳 转 指令 











较 结果 ， 改 变 指 
(5) 返回 指令 

















今 控制 流 。 
































结束 处 理 ，i 
(6) 其 他 指令 











目前 包含 两 条 指令 ， 一 条 用 于 将 索引 寄存 器 的 值 


入 索引 寄存 器 。 


内 核 执行 BPF 5 






























































一 条 指令 , 根据 语义 执行 相应 的 ] 
将 BPF 指令 编译 为 本 机 指令 ， 提 高 运行 速度 。 网 络 包 过 滤 的 相关 代码 提供 了 使 用 JIT 编译 后 指 





令 的 逻辑 ， 在 本 书 参 考 的 内 核 版 本 3.14-rc4 中 ，seccomp 没有 这 检 














执行 的 sk run filter 函数 。 


另外 ， 为 了 生成 BPF 指令 ， 也 有 些 上 


件 包 中 的 bpfe。 


BRE. GERI AS, PER 























222.44 工作 原理 


现在 大 致 介 




















C 见 http://netsniff-ng.org。 
































绍 一 下 seccomp 的 工作 原理 。 





























在 内 核 系统 调 





























一 下 指令 系统 。 





基于 累加 器 中 数值 和 索引 寄存 器 中 数值 的 比较 结果 ， 或 者 基于 累加 器 中 数值 和 立即 数 的 比 





























存 入 累加 器 ， 另 一 条 用 于 将 累加 器 的 值 存 











上 令 的 代码 在 net/core/filter.c 的 sk run filter 函数 中 。 它 是 解释 执行 的 ， 读 
发 者 引入 了 JIT (Just In Time) 编译 器 ， 















































用 的 入 口 ， 例 如 x86 平台 下 入 口 在 











FE， 还 是 老 老 实 实地 调用 解释 





有 户 态 工具 提供 编译 和 汇编 功能 ， 例 如 netsniff-ng^ X 
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arch/x86/kernel/entry 64.S， 会 调用 syscall trace enter. 
函数 ， 例 如 x86 平台 下 此 函数 在 arch/x86/kernel/ptrace.c 中 o syscall trace enter. 会 调用 
secure computing, secure computing 调用 ”secure_computing， 后 者 调用 seccomp run filters, 
seccomp run filters 会 遍历 当前 进程 的 所 有 filter (filter 之 间 用 prev 串 成 一 个 链表 )， 调 用 
sk run filter 解释 执行 每 个 filte 

概括 为 ， 在 系统 调 














E] 






































r 之 中 存储 的 BPF 指令 。 






































根据 钩子 返回 值 决定 是 否 继续 执行 。 


22.3 ”内 核 接 口 


22.3.1 系统 调用 








seccomp 没有 引入 新 的 系统 调用 ， 它 利用 系统 调 月 









































syscall trace enter 也 是 一 个 平台 相关 的 
























































入 口 有 钩子 ， 钩 子 最 终 会 执行 进程 关联 的 BPF 指令 ， 系 统 调用 入 口 会 





H prctl: 


int prctl(int option, unsigned long arg2, unsigned long arg3, unsigned long 


arg4, unsigned 


seccomp 在 prctl 的 第 一 个 参数 option 扩 
p p p 














long arg5); 


SECCOMP。 调 用 时 ， 分 别 为 : 

















E TP: 








prctl(PR GET SECCOMP, 0, O0, O0, 0) 

















prctl(PR SET SECCOMP, mode, filter, 0, 0) 





当 prctl 的 option 参数 取 值 为 PR GET SECCOMP 时 ， 





的 返回 值 为 当前 进程 的 seccomp 模式 ， 即 以 下 三 
SECCOMP MODE STRICT 或 SECCOMP MODE 
PR SET SECCOMP F}, arg2 表示 模式 ， 如 果 arg2 取 值 
是 指向 sock filter 数组 的 指针 ， 在 其 他 模式 下 ，arg3 没有 














22.3.2 tk 























$ cat /proc/self/status 


Name: 
State: 
Tgid: 
Ngid: 
CapInh: 
CapPrm: 


CapEff: 
CapBnd: 


Seccomp: 
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cat 

R (running) 
4903 

0 


0000000000000000 

0000000000000000 

0000000000000000 

0000001fffffffff 
0 





个 值 之 
























































PR GET SECCOMP 和 PR SET - 


























prctl 的 其 余 几 个 参数 没有 用 ，Pprctl 


: SECCOMP MODE DISABLED、 
FILTER。 当 prctl 的 option 参数 取 值 为 
2j SECCOMP MODE FILTER, 则 arg3 

















jo 


在 proc 伪 文 件 系统 中 的 [pid]/status 文件 会 显示 进程 的 seecomp 状态 。 
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224 总 结 


















































] 户 态 和 内 核 态 之 间 最 主要 的 接口 是 系统 调用 。seccomp 通过 限制 系统 调用 的 方式 来 限 秆 
用 户 态 进程 的 行为 。 它 常 被 用 来 实现 沙 箱 ， 但 需要 注意 的 是 它 不 等 同 于 沙 箱 。seccomp 有 两 利 
工作 模式 ， 一 个 简单 而 粗暴 地 只 允许 进程 使 用 4 个 系统 调用 ; 男 一 个 则 优雅 和 灵活 许多 ， 它 允 
许 进程 自 定义 对 系统 调用 的 限制 ， 不 仪 可 以 限制 系统 调用 号 ， 还 可 以 限制 系统 调用 的 参数 。 后 
一 种 的 实现 重用 了 BPF 机 制 ， 而 有 趣 的 是 BPF 是 一 个 内 核 中 的 “虚拟 机 ”。 
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229 参考 资料 


读者 可 参考 以 下 资料 : 
https://blog.jtlebi.fr/2014/05/29/introduction-to-seccomp-bpf-linux-syscall-filter/ 
https://code.google.com/p/seccompsandbox/wiki/overview 
Documentation/prctl/seccomp filter.txt 

Documentation/networking/filter.txt 


http://www.tcpdump.org/papers/bpf-usenix93.pdf 
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294 简介 


ASLR 是 “Address Space Layout Randomization” 的 缩写 ， 意 思 是 地 址 空间 布局 随机 化 。 
ASLR 的 目标 是 让 用 户 态 进程 空间 的 地 址 出 现 某 种 随机 化 , 从 而 提高 针对 地 址 发 动 攻击 的 难度 。 
内 核 地 址 空间 的 随机 化 ，KASLR， 也 已 实现 。 详 情 可 以 参考 https://Iwn.net/Articles/569635/。 
图 23-1 概念 性 地 示意 了 一 个 进程 的 地 址 空间 布局 。 



































Kernel Space 
D ] 


Memory mapping, 


Random stack offset 


Random mmap offset 


Random brk offset 








Ki 23-1 进程 虚拟 地 址 布局 

















图 中 所 示 是 进程 的 虚拟 地 址 (Virtual Address)， 不 是 物理 地 址 。 图 的 上 部 是 高 地 址 空间 ， 
也 就 是 地 址 数值 大 的 部 分 ， 下 部 是 低地 址 空间 ， 也 就 是 地 址 小 的 部 分 。 最 上 部 是 内 核 地 址 ， 用 
户 态 无 法 访问 。 用 户 态 可 以 访问 的 地 址 ， 从 上 向 下 依次 为 : 

(1) stack 

进程 的 栈 空 间 。 一般 情 况 下 是 向 地 址 小 的 方向 生长 ,但 在 某 些 架构 下 ， 比 如 pa-risc 和 ia64, 
是 向 地 址 大 的 方向 生长 。ASLR 可 以 控制 栈 的 起 点 。 

(2) mmap 

进程 调用 系统 调用 mmap 将 文件 的 内 容 映 射 到 进程 的 mmap 地 址 空间 。 进 程 所 使 用 的 共享 库 

般 是 由 系统 加 载 程 序 (loader) 通过 mmap 映射 到 进程 地 址 空间 的 。 这 部 分 地 址 空间 也 是 问 地 址 

小 的 方向 生长 ， 内 核 分 配 地 址 时 先 使 用 高 地 址 ， 再 使 用 低地 址 。ASLR 可 以 控制 mmap 的 起 点 。 

(3) heap 

进程 的 堆 。 这 部 分 地 址 空间 向 地 址 大 的 方向 生长 。 堆 的 终点 由 系统 调用 brk 设 定 ，ASLR 
可 以 控制 堆 的 起 点 。 起 点 和 终点 之 间 是 进程 的 堆 ， 进 程 可 以 对 这 部 分 内 存 执行 读 写 操作 。 一 般 
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情况 下 这 部 分 内 存 由 C 库 管 理 。 应 用 在 调用 申请 内 存 的 库 函 数 时 (例如 malloc)，C FEZ TENE 
中 分 配 一 块 内 存 。 当 然 ， 应 用 也 可 以 抛 开 C 库 直接 管理 自己 的 堆 。 





























Fr 











































































































系统 调 月 





H brk 的 名 字 来 自 break， 意 思 是 设置 program break。 改 变 program break 的 意义 是 











改变 了 进程 中 程序 部 分 (program) 的 终点 。 何 为 程序 部 分 ? 把 代码 、 数 据 、 堆 三 者 合 一 看 作 程 


序 就 好 了 。 






































应 用 一 般 不 会 调用 brk， 而 会 调用 malloc, Æ CEH malloc 实现 中 ，C 库 在 堆 空 间 不 足 时 


会 调用 brk。 










































































但 是 在 某 些 情况 下 ，C 库 也 可 能 会 调用 mmap 申请 一 块 匿名 地 址 映射 供 进程 使 用 。 





























所 以 应 用 通过 malloc 申请 的 空间 有 可 能 不 在 heap 地 址 空间 。 
(4) data 
进程 的 数据 段 (data segment)。ASLR 不 会 影响 这 部 分 的 地 址 2 。 
(5) code 
进程 的 代码 段 ，ELF 的 标准 术语 是 “text”。ASLR 不 会 影响 这 部 分 的 地 址 。 


232 ”内 存 布局 


操作 系统 的 内 存 管理 是 十 分 复杂 的 ， 本 章 无 法 详细 介绍 。 为 了 能 把 概念 讲 清楚 ， 本 节 具 体 































































































分 析 几 个 进程 实例 。 
23.2.1 ” 伪 文 件 /proc/[pid]j/maps 
首先 介绍 一 个 proc 文件 系统 的 伪 文 件 /proc/[pidj/maps。 它 列 出 了 一 个 进程 的 虚拟 内 存 布局 。 

看 一 个 例子 : 
zhi@zhi-ubuntu:/git repo/linux$ cat /proc/self/maps 
00400000-0040b000 r-xp 00000000 fc:00 12976245 /bin/cat 
0060a000-00605000 r--p 00004000 fc:00 12976245 /bin/cat 
0060b5000-0060c000 rw-p 00005000 fc:00 12976245 /bin/cat 
00e33000-00654000 rw-p 00000000 00:00 0 [heap] 


7£8d0d0387000-7£8080542000 r-xp 00000000 £c:00 19533659 /1ib/x86 64- linux-gnu/libc-2.19.so 
7£d0d0542000-7£80d0741000 ---p 0015000 £c:00 19533659 /1ib/x86 64- linux-gnu/libc-2.19.so 
7£d0d0741000-7£80d0745000 r--p 001ba000 £c:00 19533659 /1ib/x86 64- linux-gnu/libc-2.19.so 
7£d0d0745000-7£80d0747000 rw-p 001be000 £c:00 19533659 /1ib/x86 64- linux-gnu/libc-2.19.so 


7fd0d0747000-7fd0d074c000 rw-p 00000000 00:00 0 


7£d0d074c000-7£d0d076£f000 r-xp 00000000 fc:00 19533655 /lib/x86 64- linux-gnu/1d-2.19.so 
7fd0d07bb000-7fd0d0944000 r--p 00000000 £c:00 42729792 /usr/lib/locale/locale-archive 


7fd 
7fd 





040944000-7£d0d0947000 rw-p 00000000 00:00 0 
0d096c000-7f£d0d096e000 rw-p 00000000 00:00 0 


7£d0d096e000-7£d0d096f000 r--p 00022000 fc:00 19533655 /lib/x86 64- linux-gnu/1d-2.19.so 
7£d0d096£000-7f£4040970000 rw-p 00023000 fc:00 19533655 /lib/x86 64- linux-gnu/1d-2.19.so 


7fd0d0970000-7f£d040971000 rw-p 00000000 00:00 0 

7fff10b250000-7fffl10b4c000 rw-p 00000000 00:00 0 [stack] 
7ffflObd0000-7ffflObd2000 r-xp 00000000 00:00 0 [vdso] 
ffffffffff600000-ffffffffff601000 r-xp 00000000 00:00 0 [vsyscall] 





O 在 后 面 介绍 的 pie 格式 下 ，data 和 code 被 分 配 到 进程 的 mmap 地 址 段 ， 在 此 情况 下 ，ASLR 可 以 影响 到 它们 的 地 址 。 
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第 一 列 是 地 址 ， 格 式 是 “起 点 -终点 ”。 第 二 列 是 权限 ， 前 三 个 字符 对 应 读 、 写 和 执行 。 第 
四 个 字符 有 “p” 和 “sgs” 两 个 值 ， 取 值 “p” 表 示 对 这 部 分 内 存 的 修改 不 会 让 其 他 映射 了 同样 文 
件 的 进程 看 到 ， pdr 取 值 “s” 表 示 对 这 部 分 内 存 的 修改 会 被 其 他 映射 
同样 文件 的 进程 看 到 ， 并 日 会 写 入 所 映射 的 文件 。 第 三 列 是 一 个 十 六 进 制 整 数 ， 表 示 文 件 偏 移 ， 
意思 是 自 偏 移 开 始 映 射 文件 内 容 到 内 存 。 第 四 列 是 设备 号 ,格式 为 “ 主 设备 号 : 从 设备 号 ” 第 
déc icai hei) inode 号 。 第 六 列 是 映射 文件 的 文件 名 ， 有 两 种 情况 没有 对 应 
的 映射 文件 ， 一 种 是 特殊 的 地 址 段 ， 如 heap， 另 一 种 是 匿名 地 址 映射 。 

上 例 中 ， 有 两 段 特 殊 地 址 前 面 没 有 介绍 ， 一 个 是 vdso， 男 一 个 是 vsyscall。 它 们 两 个 的 作 
用 一 样 ， 都 用 来 提高 用 户 态 进 程 调 用 某 些 不 需要 特权 的 系统 调用 的 速度 。 什 么 是 不 需要 特权 的 
系统 调用 ? 一 个 经 典 的 例子 是 系统 调用 gettimeofday。 它 所 需要 做 的 就 是 读 一 块 存 有 时 间 数 据 的 
内 核 内 存 。 而 上 只 要 允许 用 户 态 进程 以 只 读 方式 访问 这 块 内 存 ， 就 可 以 避免 耗费 资源 的 用 户 态 和 
内 核 态 转换 。vsyscall 地 址 区 包含 一 些 数 据 和 指令 ， 用 来 实现 虚拟 的 系统 调用 ， 免 去 用 户 态 和 内 
核 态 切换 的 开销 。vsyscall 出 现 得 早 ， 它 的 局 限 之 一 是 地 址 固定 ， 不 能 做 随机 化 。vdso 克服 了 
这 个 局 限 ， 可 以 随机 化 。 在 x86 架构 下 ，vdso 区 域 的 地 址 在 stack 之 上 。 


23.2.2 ELF 文件 格式 


ELF 是 Executable and Linkable Format 的 简称 。 它 是 一 种 针对 可 执行 文件 、 目 标 文件 、 
享 库 文件 和 核心 转 储 (core dump) 文件 的 格式 标准 ， 它 被 包括 Linux 在 内 的 类 UNIX ERÉ 
使 用 。ELF 十 分 复杂 ， 本 章 只 对 涉及 进程 执行 的 可 执行 文件 格式 和 共享 库 文件 格式 的 部 分 内 有 
做 介绍 。 在 这 两 种 格式 中 有 段 的 概念 ， 段 又 是 通过 “Program Header” 描 述 的 ， 举 个 例子 : 
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zhi@zhi-ubuntu:/git_repo/linux$ readelf -1 /bin/cat 


Elf file type is EXEC (Executable file) 
Entry point 0x402602 
There are 9 program headers, starting at offset 64 





Program Headers: 






























































Type Offset VirtAddr PhysAddr 
FileSiz MemSiz Flags Align 

PHDR 0x0000000000000040 0x0000000000400040 0x0000000000400040 
0x00000000000001£8 0x00000000000001£8 RE 8 

INTERP 0x0000000000000238 0x0000000000400238 0x0000000000400238 
0x000000000000001c 0x000000000000001c R 1 

[Requesting program interpreter: /lib64/ld-linux-x86-64.s0.2] 

LOAD 0x0000000000000000 0x0000000000400000 0x0000000000400000 
0x000000000000adc4 0x000000000000adc4 RE 200000 

LOAD 0x000000000000ae10 0x000000000060ae10 0x000000000060ae10 
0x0000000000000504 0x0000000000000ed8 RW 200000 

DYNAMIC 0x000000000000ae28 0x000000000060ae28 0x000000000060ae28 
0x00000000000001d40 0x00000000000001240 RW 8 

NOTE 0x0000000000000254 0x0000000000400254 0x0000000000400254 
0x0000000000000044 0x0000000000000044 R 4 

GNU EH FRAME  0x0000000000009af4 0x0000000000409af4 0x0000000000409af4 
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0x000000000000030c 0x000000000000030c R 


4 


10 


GNU STACK 0x0000000000000000 0x0000000000000000 0x0000000000000000 
0x0000000000000000 0x0000000000000000 RW 
GNU RELRO 0x000000000000ae10 0x000000000060ae10 0x000000000060ae10 


0x00000000000001f0 0x00000000000001f0 R 











首先 要 关注 的 是 


























Elf file type is EXEC (Executable file) 


这 表明 此 文件 是 一 个 可 执行 文件 。 其 次 是 类 型 为 “INTERP” 的 段 ， 这 个 段 只 
串 ， 通 过 这 个 字符 串 规定 了 加 载 器 (loader)。 然 后 是 类 型 为 “LOAD” 的 段 ， 





ib 


4 包含 一 个 字符 
一 般 编 译 器 会 生 




















成 两 个 “LOAD” 段 ， 











一 个 放 代 码 ， 一 个 放 数 据 。 其 他 的 信息 内 核 基 本 就 不 关心 了 ， 用 户 














态 的 





加 载 器 会 使 用 它们 。 内 核 要 做 的 事情 主要 是 将 两 个 LOAD 段 数据 映射 到 进程 内 存 ， 一 个 对 应 代 





码 区 ， 一 个 对 应 数据 区 ， 


建立 栈 区 ， 然 后 将 加 载 器 映射 到 mmap 区 。 将 进程 的 代码 执行 点 设置 


















































为 加 载 器 的 起 始 执行 地 址 ， 启 动 进程 。 加 载 器 会 在 用 户 态 首先 被 执行 ， 它 会 将 其 他 的 共享 库 加 
载 到 进程 的 mmap 区 。 

以 上 说 得 比较 简单 ， 下 面 分 三 种 情况 举例 说 明 进 程 的 虚拟 地 址 布局 : 动态 链接 的 可 执行 文 
件 、 葛 态 链接 的 可 执行 文件 、 位 置 无 关 的 可 执行 文件 。 


23.2.3 ”动态 链接 的 可 执行 文件 


下 面 这 个 小 程序 ， 读 出 /proc/self/maps 内 容 ， 写 到 标准 输出 之 中 。 





#include <unistd.h> 


#include <sys/types.n> 
«sys/stat.h» 
«fcntl.h» 


«stdlib.h» 


finclude 
finclude 
finclude 


int main() 

{ 
int count, 
char *buf - 


fd - open("/proc/self/maps", O RDONLY); 
malloc (2048); 





if (fd«0) exit(1); 

if (!buf) exit(2); 

if ( (count = read(fd, buf, 2048)) < 0 ) exit(3); 
if ( write(1, buf, count) < 0 ) exit(2); 
free(buf); 

close (fd); 





return 0; 
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} 


























将 它 编 译 为 使 用 动态 链接 库 的 可 执行 文件 : 


gcc -o mem layout mem layout.c 








运行 的 结果 是 : 


zhiGzhi-ubuntu:/tmp$ ./mem layout 

00400000-00401000 r-xp 00000000 fc:00 19973780 /home/zhi/tmp/mem layout 
00600000-00601000 r--p 00000000 fc:00 19973780 /home/zhi/tmp/mem layout 
00601000-00602000 rw-p 00001000 fc:00 19973780 /home/zhi/tmp/mem layout 
00708000-00789000 rw-p 00000000 00:00 0 [heap] 


7£78c3ebd000-7£78c4078000 r-xp 00000000 £c:0019533659 /1ib/x86 64-linux-gnu/libc-2. 
7£78c4078000-7£78c42777000 —-p 001b5000 £c:0019533659 /1ib/x86 64-linux-gnu/libc-2. 
7£78c42771000-7£78c42 770000 r--p 001ba000 £c:0019533659 /1ib/x86 64-linux-gnu/libc-2. 
7£8c4270000-7£78c4278000 rw-p 001be000 £c:0019533659 /1ib/x86 64-linux-gnu/libc-2. 


7£78c4274000-7£78c4282000 rw-p 00000000 00:00 0 


7£78c4282000-7£78c42a5000 r-xp 00000000 £c:00 19533655 /lib/x86 64- linux-gnu/ld-2. 


7£78c447a000-7£78c4474000 rw-p 00000000 00:00 0 
7£78c44a2000-7f£78c44a4000 rw-p 00000000 00:00 0 


7£78c44a4000-7£78c4425000 r--p 00022000 £c:00 19533655 /lib/x86 64- linux-gnu/ld-2. 
7£78c44a5000-7£78c44a6000 rw-p 00023000 £c:00 19533655 /lib/x86 64- linux-gnu/ld-2. 








7£78c44a6000-7f£78c44a7000 rw-p 00000000 00:00 0 



































19. 
19. 
19. 
I95 


19. 


19. 
19. 


So 


So 


SO 


SO 


SO 


SO 


SO 


7fffcdebc000-7fffcdedd000 rw-p 00000000 00:00 0 stack] 
7£ffcdfd2000-7fffcdfd4000 r-xp 00000000 00:00 0 vdso] 
ffffffffff600000-ffffffffff601000 r-xp 00000000 00:00 0 [vsyscall] 
开始 的 三 个 地 址 区 ， 对 应 被 执行 文件 mem_layout， 没 有 被 随机 化 处 理 。 无 论 运行 多 少 遍 ， 
地 址 都 是 一 样 的 。 这 三 个 地 址 区 中 ， 第 一 个 是 代码 ， 第 二 个 和 第 三 个 是 数据 。 其 后 的 地 址 区 ， 











依次 是 堆 、mmap 区 、 栈 、vdso 和 vsyscall。 除 了 最 后 一 个 vsyscall 外 ， 地 址 都 被 内 核 做 了 随机 























化 处 
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结合 ELF 文件 格式 ， 我 们 再 看 ; 


H 


o 


Iu 








zhi8zhi-ubuntu:/tmp$ readelf -1 mem layout 


Elf file type is EXEC (Executable file) 
Entry point 0x4005f0 





There are 9 program headers, starting at offset 64 


Program Headers: 








Type Offset VirtAddr PhysAddr 
FileSiz MemSiz Flags Align 

PHDR 0x0000000000000040 0x0000000000400040 0x0000000000400040 
0x00000000000001£8 0x00000000000001f8 RE 8 

INTERP 0x0000000000000238 0x0000000000400238 0x0000000000400238 
0x000000000000001c 0x000000000000001c R 下 
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[Requesting program interpreter: /lib64/1d-linux-x86-64.so.2] 





LOAD 0x0000000000000000 0x0000000000400000 0x0000000000400000 
0x000000000000095c 0x000000000000095c RE 200000 
LOAD 0x0000000000000e10 0x0000000000600e10 0x0000000000600e10 








0x0000000000000260 0x0000000000000268 RW 200000 











mem layout 的 ELF 文件 类 型 是 可 执行 文件 (EXEC)， 并 且 有 一 个 “INTERP” 段 。 这 两 条 
是 动态 链接 的 可 执行 文件 的 特征 。 它 有 两 个 “LOAD” 段 ， 第 一 个 对 应 代码 ， 规 定 加 载 入 进程 
的 虚拟 地 址 起 始 于 0x400000， 这 个 和 前 面 运行 程序 的 输出 一 致 。 第 二 个 对 应 数据 ， 规 定数 据 起 
始 于 文件 的 偏 移 0xe10， 在 文件 中 长 度 为 0x260， 加 载 入 进程 的 虚拟 地 址 起 始 于 0x600e10， 在 
进程 中 长 度 为 0x268。 这 里 有 两 个 问题 ， 首 先是 由 于 内 核 内 存 管理 要 页 对 齐 ，Linux 内 核 在 x86 
架构 下 一 页 是 4096B， 即 0x1000. OxelO 向 上 对 齐 页 面 地 址 得 到 的 地 址 值 为 0， 所 以 内 核 将 起 
始 于 文件 偏 移 0 的 两 页 数据 映射 入 进程 的 虚拟 地 址 空间 ， 在 进程 中 起 始 地 址 为 0x600000。 
其 次 ， 文 件 的 长 度 和 进程 中 内 存 的 长 度 不 一 致 ， 一 个 是 0x260， 一 个 是 0x268。 多 出 的 部 分 就 
是 所 谓 的 bss ， 对 应 一 些 初始 值 为 0 的 变量 ， 没 有 必要 在 文件 中 占用 空间 ， 内 核 初始 化 内 存 时 
自动 将 这 部 分 对 应 内 存 清 为 0。ELF 文件 中 规定 的 两 个 虚拟 地 址 ， 一 个 是 0x400000， 一 个 是 
0x600e10， 页 对 齐 后 为 0x600000， 由 此 可 见 ， 内 核对 动态 链接 的 可 执行 文件 的 code 区 和 data 
区 没有 做 地 址 随机 化 处 理 

还 有 一 个 问题 ,ELF 文件 中 有 两 个 LOAD 段 ， 而 在 进程 中 有 三 个 地 址 区 和 ELF 文件 对 应 , 一 
个 代码 ， 两 个 数据 。 这 是 为 什么 呢 ? 这 是 加 载 程序 (loader) 做 的 手脚 ， 内 核准 备 好 内 存 后 ， 就 将 
运行 控制 交 给 了 用 户 态 的 加 载 程 序 ， 在 本 例 中 就 是 /lib64/1d-linux-x86-64.s0.2。 在 这 个 时 候 data 区 
还 只 有 一 个 ， 而 且 是 可 读 可 写 。 加 载 程序 修改 了 一 个 或 几 个 数据 后 ， 通 过 系统 调用 mprotect 将 一 
部 分 data 区 标记 为 只 读 。 内 核 响 应 请 求 就 将 data 区 一 分 为 二 ， 一 部 分 只 读 ， 一 部 分 可 读 可 写 。 


23.2.4 ”静态 链接 的 可 执行 文件 


使 用 命令 
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H HB S 


gcc -static -o mem layout-static mem layout.c 








将 源 程 序 编译 为 静态 链接 的 可 执行 文件 。 运 行 的 结果 为 : 





zhi@zhi-ubuntu:/tmp$ ./mem layout-static 
00400000-004bf000 r-xp 00000000 fc:00 19973787 /home/zhi/tmp/ mem layout-static 
0065e000-006c1000 rw-p 000be000 £c:0019973787  /home/zhi/tmp/mem layout-static 
006c1000-006c4000 rw-p 00000000 00:00 0 





02058000-020db000 rw-p 00000000 00:00 0 [heap 
7fff80261000-7fff80282000 rw-p 00000000 00:00 0 [stack] 
7fff8b2f8000-7fff8b2fa000 r-xp 00000000 00:00 0 [vdso] 
ffffffffff600000-ffffffffff601000 r-xp 00000000 00:00 0 [vsyscall 














和 动态 链接 相 比 ， 静 态 链 接 的 可 执行 文件 没有 mmap 区 ， 因 为 没有 加 载 程序 (loader),， data 























C bss 是 Block Started by Symbol 的 缩写 。 
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区 也 只 有 一 个 。 其 他 的 一 样 。 再 看 看 ELF 文件 : 




















zhiGzhi-ubuntu:/tmp$ readelf -1 mem layout-static 


Elf file type is EXEC (Executable file) 
Entry point 0x400f4e 
There are 6 program headers, starting at offset 64 





Program Headers: 





























Type Offset VirtAddr PhysAddr 
FileSiz MemSiz Flags Align 
LOAD 0x0000000000000000 0x0000000000400000 0x0000000000400000 
0x00000000000bee41 0x00000000000bee41 RE 200000 
LOAD 0x00000000000beebO 0x00000000006beeb0 0x00000000006beebO 
0x0000000000001480 0x0000000000004248 RW 200000 
ELF 文件 类 型 是 可 执行 文件 (EXEC)， 没 有 “INTERP” 类 型 的 段 。 
A » A-— a 
232.5 ”位 置 无 关 的 可 执行 文件 
最 后 一 个 是 位 置 无 关 的 可 执行 文件 。 编 译 命令 : 
gcc -fPIC -pie -o mem layout-pie mem layout.c 
运行 结果 是 
zhi8Gzhi-ubuntu:/tmp$ ./mem layout-pie 
7£5620770000-7£506209250000 r-xp 00000000 f£c:00 19533659 


/lib/x86 64-linux-gnu/libc-2.19.s0o 
7f0620925000-7£5620b2a000 ---p 00105000 fc:00 195336 
linux-gnu/libc-2.19.so 
7f562002a000-7£5620b2e000 r--p 001528000 fc:00 195336 
linux-gnu/libc-2.19.so 
7fb620b2e000-7fb620b30000 rw-p 00lbe000 fc:00 195336 
linux-gnu/libc-2.19.so 
7fb620b30000-7fb620b3500 
7fb620b35000-7fb620b5800 
linux-gnu/ld-2.19.so 
7fb620d24000-7£0620830000 rw-p 00000000 00:00 0 
7f566204d55000-7£0620857000 rw-p 00000000 00:00 0 
7fb620d57000-7fb620d5800 r--p 00022000 £fc:00 195336 
linux-gnu/ld-2.19.so 
7f56620458000-7£5620859000 rw-p 00023000 fc:00 195336 
linux-gnu/ld-2.19.so 
7fb620d59000-7fb620d5a00 





e 


rw-p 00000000 00:00 0 
r-xp 00000000 £fc:00 195336 


[m 


C 


e 


rw-p 00000000 00:00 0 




















mem layout-pie 
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59 — /lib/x86 64- 


59 — /lib/x86 64- 


59 — /lib/x86 64- 


55  /lib/x86 64- 


55  /lib/x86 64- 


55 /lib/x86 64- 


7f£b6620d5a000-7f£5620d55000 r-xp 00000000 fc:00 19973789  /home/zhi/tmp/ 


7B 23 章 ASLR 








7£5620£5a000-7f£b5620£5b000 r--p 00000000 fc:00 19973789  /home/zhi/tmp/ 
mem layout-pie 
7£0620£55000-7f£50620f£5c000 rw-p 00001000 fc:00 19973789  /home/zhi/tmp/ 
mem layout-pie 














7£5621c9e000-7£b621cbf000 rw-p 00000000 00:000 [heap] 
7fff22ece000-7fff22eef000 rw-p 00000000 00:00 0 [stack] 

7£ff22£06000-7fff22f48000 r-xp 00000000 00:000 [vdso] 
ffffffffff600000-ffffffffff601000 r-xp 00000000 00:00 0 [vsyscall] 





可 执行 文件 的 代码 和 数据 被 映射 到 了 mmap 区 , 堆 (heap) 也 被 放 在 了 mmap 区 .除了 vsyscall 
区 外 ， 其 余 各 区 的 地 址 都 被 随机 化 了 。 再 看 ELF 文件 格式 : 














zhi8Gzhi-ubuntu:/tmp$ readelf -1 mem layout-pie 





Elf file type is DYN (Shared object file) 
Entry point 0x810 





There are 9 program headers, starting at offset 64 


Program Headers: 








Type Offset VirtAddr PhysAddr 
FileSiz MemSiz Flags Align 

PHDR 0x0000000000000040 0x0000000000000040 0x0000000000000040 
0x00000000000001£8 0x00000000000001f£8 RE 8 

INTERP 0x0000000000000238 0x0000000000000238 0x0000000000000238 
0x000000000000001c 0x000000000000001c R T 

[Requesting program interpreter: /lib64/ld-linux-x86-64.s0.2] 

LOAD 0x0000000000000000 0x0000000000000000 0x0000000000000000 
0x0000000000000bac 0x0000000000000bac R E 200000 

LOAD 0x0000000000000df0 0x0000000000200df0 0x0000000000200df0 














0x0000000000000288 0x0000000000000290 RW 200000 




















这 类 文件 的 ELF 类 型 是 共享 目标 文件 (DYN)。 这 很 有 趣 ， 从 ELF 文件 格式 的 角度 看 ， 它 
是 一 个 共享 库 ! 











23.3 ”工作 原理 








总 结 一 下 ，ASLR 可 以 对 栈 (stack)、 堆 Cheap), AFIRI} (mmap)、vdso 的 地 址 做 随机 
化 处 理 。 所 谓 随 机 化 ， 就 是 内 存 区 域 的 起 点 在 一 定 范围 内 浮动 ， 而 浮动 的 依据 是 内 核 随机 数 设 
备 产 生 的 随机 数 ， 所 以 有 人 批评 ASLR 会 占用 内 核 的 随机 数 资源 。 这 个 起 点 对 于 向 下 生长 的 栈 
和 向 下 生长 的 内 存 映射 就 是 最 高 地 址 ， 对 于 向 上 生长 的 堆 就 是 最 低地 址 。 实 现代 码 比 较 简单 ， 
有 兴趣 的 读者 可 以 查看 stack maxrandom size. arch randomize brk. mmap rnd, vdso addr 等 
儿 个 函数 。 

Linux 内 核 中 有 一 个 全 局 变量 randomize va space， 它 有 3 个 取 值 : 

0: ASLR 不 起 作用 。 不 做 地 址 随机 化 处 理 。 

1: 对 栈 、 内 存 映射 、vdso 做 地 址 随机 化 处 理 
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2: 对 栈 、 内 存 映 射 、vdso 和 堆 做 地 址 随机 化 处 理 。 




















上 面 这 个 变量 是 针对 全 系统 的 。 在 进程 的 task_struct 中 有 
































个 变量 personality， 它 有 一 个 


比特 位 ADDR. NO RANDOMIZE， 如 果 此 位 被 置 为 1， 则 这 个 进程 不 做 地 址 随机 化 。 


23.4 内核 接口 


与 randomize va space 对 应 的 内 核 接口 是 伪 文 件 /proc/sys/kernelrandomize va_space。 通 过 


此 文件 可 以 查看 或 修改 当前 内 核 中 randomize va space 的 值 。 



































一 个 不 常用 的 系统 调用 personality 可 以 修改 进程 的 task. struct 中 的 变量 personality. 这 个 系 
统 调用 本 来 是 用 来 让 Linux 系统 运行 在 其 他 类 UNIX 系统 上 编译 的 可 执行 文件 的 ， 这 个 目标 显 


















































然 没 有 达到 。 














23.5 总结 





ASLR 的 实现 是 简单 而 有 效 的 。 它 显著 增 大 了 攻击 的 难度 。 涯 
是 首先 攻克 ASLR， 而 攻克 的 方式 往往 是 想 办 法 得 到 一 个 地 址 ， 再 从 这 个 二 
的 地 址 。 所 以 有 些 对 内 核 地 址 随机 化 (KASLR) WHE 
























































些 地 址 出 发 就 可 以 推导 出 其 他 地 址 。 





























DUE: 





























要 把 ASLR 讲 清楚 ， 绕 不 开 虚 拟 内 存 的 布局 ， 本 章 伦 费 了 许多 笔 呈 





u— 





也 址 














用 和 攻击 的 步骤 一 般 都 
E 出 同 区 域内 别 





就 是 说 内 核 有 很 多 地 址 必须 








E 























x fni HUP T —RRPRIBATOCTER VITE Jy. SiS EPIS HUE BGB 
种 文件 的 进程 很 难 抵御 ROP 攻击 。 动 态 链接 的 要 好 些 , 但 是 非 库 的 代码 区 域 和 数据 区 域 的 地 址 


























固定 。 从 这 


4 了 虚拟 内 存 。 
1 化 最 差 ， 事 实 上 运行 这 


仍然 没有 随机 化 。 随 机 化 最 好 的 是 位 置 无 关 的 可 执行 文件 ， 除 了 vsyscall 区 ， 其 余 区 域 都 做 了 
地 址 随机 化 。vsyscall 不 能 做 随机 化 是 因为 它 本 身 是 Linux 内 核 ABI 的 一 部 分 。 如 果 不 考虑 兼 
































容 老 旧 应 用 ， 可 以 在 编译 内 核 时 把 对 vsyscall 的 支持 去 掉 。 











29.0 ”参考 资料 


读者 可 参考 以 下 资料 : 
http://pax.grsecurity.net/docs/aslr.txt 
https://Iwn.net/Articles/446528/ 
http://man7.org/linux/man-pages/man7/vdso.7.html 
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附 ox 


LSM (Linux Security Module) 的 存在 使 得 在 Linux 内 核 代 码 中 多 个 相互 独立 的 内 核 安全 模 
块 可 以 共存 。 不 但 行使 强制 访问 控制 功能 的 SELinux, SMACK, Tomoyo, AppArmor 和 Yama 
是 LSM 架构 中 的 安全 模块 ， 而 且 属 于 自主 访问 控制 范畴 的 能 力 〈《Capabilities) 也 依附 于 LSM 





























过 























架构 。LSM 架构 如 图 A-1 所 示 。 
进程 文件 

















图 A-1 Linux 安全 模块 架构 


下 面 以 系统 调用 open 为 例 分 析 一 下 LSM 钩子 函数 。 在 内 核 的 系统 调用 open 的 实现 代码 中 
会 判断 文件 的 操作 许可 ， 这 个 判断 是 在 函数 _inode_permission 中 实现 的 : 























fs/namei.c 
int | inode permission(struct inode *inode, int mask) 
{ 


int retval; 





if (unlikely(mask & MAY WRITE)) { 
/* 
* Nobody gets write access to an immutable file. 
S 
if (IS IMMUTABLE (inode)) 
return -EACCES; 





retval = do inode permission(inode, mask); 
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if (retval) 

return retval; 
retval = devcgroup inode permission(inode, mask); 
if (retval) 


return retval; 


return security inode permission(inode, mask); 














security inode permission 的 函数 定义 有 两 处 。 第 一 处 是 : 


当 


include/linux/security.h 
#ifdef CONFIG SECURITY 





int (*inode permission) (struct inode *inode, int mask); 


else /* CONFIG SECURITY */ 





static inline int security inode permission(struct inode *inode, int mask) 


{ 


return 0; 


) 


#endif /* CONFIG SECURITY */ 





security/security.c 


int security inode permission(struct inode *inode, int mask) 


{ 




















if (unlikely(IS PRIVATE (inode))) 
return 0; 





return security ops-»inode permission(inode, mask); 





] 户 选择 不 要 内 核 安全 模块 时 ，CONFIG SECURITY 就 没有 定义 ， 这 时 所 有 的 LSM f 
子 函 数 就 是 空 函 数 。 反 之 ， 钓 子 函 数 的 实现 中 会 试图 1i 









































村 





用 security ops 中 的 函数 指针 。 下 面 看 











看 security ops 的 值 是 怎么 来 的 。 
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security/security.c 


int _ init security init (void) 


{ 


printk(KERN INFO "Security Framework initializedWMn"); 


security fixup ops(&default security ops); 
security ops = &default security ops; 
do security initcalls(); 





return 0; 



































函数 security init 首先 填充 default security ops， 然 后 将 default security ops 赋值 给 
security ops. 


security/capability.c 
tdefine set to cap if null(ops, function) N 
do ( N 
if (!ops-»function) ( N 
ops-»function = cap ##function; N 
pr debug("Had to override the " #function N 
" security operation with the default.in"); N 
j N 
) while (0) 


void init security fixup ops(struct security operations *ops) 
{ 

set to cap if null(ops, ptrace access check); 
set to cap if null(ops, ptrace traceme); 
set to cap if null(ops, capget); 
set to cap if null(ops, capable); 


set to cap if null(ops, quotactl); 

















( 
( 
( 
set to cap if null(ops, capset); 
( 
( 
( 


set to cap if null(ops, quota on); 


) 


security fixup ops 函数 就 是 将 能 力 相 关 的 函数 填充 到 结构 体 security operations 中 。 所 以 
default security ops 中 的 函数 指针 都 是 和 能 力 相 关 的 。 当 Linux 的 5 个 安全 模块 都 没有 生效 时 ， 
LSM 钧 子 函 数 会 调用 能 力 机 制 所 定义 的 函数 。 

下 面 看 看 do_security initcalls 函数 : 




















security/security.c 





[0] 


tatic void _ init do security initcalls (void) 


initcall t *call; 

call = security initcall start; 

while (call < security initcall end) { 
(*call) 0; 
calltt; 


IDE security initcall start 和 security initcall end 的 定义 : 











include/asm-generic/vmlinux.lds.h 
#define SECURITY INIT N 
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.Security initcall.init : AT(ADDR(.security initcall.init) - LOAD OFFSET) 





VMLINUX SYMBOL( security initcall start) = .; N 
*(.security initcall.init) N 
VMLINUX SYMBOL( security initcall end) = .; N 


security initcall start 是 .security initcallinit 区 的 起 始 地 址 ， 














是 .security initcall.init 区 的 结束 地 址 。.security_initcall.init 区 的 内 容 是 被 下 面 这 个 宏 填充 的 。 
include/linux/init.h 
#define security initcall(fn) \ 

static initcall t  initcall ##fn \ 


. used  section(.security initcall.init) = fn 


FAL SELinux 为 例 看 看 对 security. initcall 的 调用 : 








security/selinux/hooks.c 


security initcall(selinux init); 


SELinux 将 selinux. init 函数 地 址 放 入 了 .security initcallinit 区 。selinux init 的 函数 定义 是 : 


security/selinux/hooks.c 
static _ init int selinux init(void) 
{ 
if (!security module enable(&selinux ops)) { 
selinux enabled = 0; 
return 0; 





if (!selinux enabled) { 
printk(KERN INFO "SELinux: 
return 0; 








Disabled at boot. Mn"); 





printk(KERN INFO "SELinux: Initializing.in"); 


if (register security(&selinux ops)) 
panic("SELinux: 





Unable to register with kernel.n"); 











SELinux ij 





日 函数 security module enable 和 register security. ^64 security module enable: 





security/security.c 








static | initdata char chosen lsm[SECURITY NAME MAX + 1] 
CONFIG DEFAULT SECURITY; 





static int _ init choose lsm(char *str) 
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{ 


N 


security initcall end 


附录 





strncpy(chosen lsm, str, SECURITY NAME MAX); 
return 1; 


) 


. Ssetup("security-", choose lsm); 








int init security module enable(struct security operations *ops) 


{ 


return !strcmp(ops-»name, chosen lsm); 


) 


security module enable 函数 判断 本 模块 是 不 是 Linux 默认 的 或 启动 时 选择 的 模块 。 
register security 很 简单 ， 就 是 将 本 模块 赋值 给 security ops: 


























security/security.c 
int _ init register security(struct security operations *ops) 


{ 


security ops = ops; 


return 0; 


) 


此 可 见 ， 起 作用 的 只 能 是 一 个 模块 。 多 个 模块 可 以 共存 于 内 核 ， 但 是 只 能 有 一 个 处 于 工 
作 状 态 。 不 过 Yama 是 一 个 特例 ， 它 可 以 和 其 他 模块 共存 ， 原 因 是 在 LSM 钩子 函数 中 为 Yama 
做 了 一 些 调整 : 
















































































security/security.c 
int security ptrace access check(struct task struct *child, unsigned int 





mode) 


{ 
#ifdef CONFIG SECURITY YAMA STACKED 


int rc; 








rc = yama ptrace access check(child, mode); 





if (rc) 
return rc; 
#endif 
return security_ops->ptrace_access_check (child, mode); 


251 








JLAM 
VJ E EA IR A T 


本 书 对 Linux 内 核 安 全 子 系统 做 了 系统 而 深入 的 分 析 ， 内 容 包括 | 
Linux 内 核 的 自主 访问 控制 、 强 制 访问 控制 、 完 整 性 保护 、 审 计 日 志 . 密 | 
钥 管理 与 密 钥 使 用 等 。 | 

本 书 可 供 希 望 深入 了 解 Linux 安全 的 读者 参考 ， 也 可 供 计算 机 安全 | 
专业 的 学 生 和 计算 机 安全 领域 的 从 业 人 员 阅 读 , 还 可 用 作 计算 机 安全 高 级 
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